These are public posts tagged with #llama. You can interact with them if you have an account anywhere in the fediverse.
[Перевод] Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям
Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи. Разумеется, позиционные эмбеддинги эволюционировали от абсолютных к роторационным (RoPE), Multi-Head Attention в значительной степени уступил место Grouped-Query Attention, а более эффективная SwiGLU заменила такие функции активации, как GELU. Но если отбросить эти незначительные усовершенствования, действительно ли мы наблюдаем принципиальные архитектурные сдвиги — или просто продолжаем полировать одни и те же фундаментальные конструкции? Сравнение LLM между собой с целью выявления ключевых факторов, влияющих на их качество (или недостатки), по-прежнему остаётся крайне нетривиальной задачей: датасеты, методы обучения и гиперпараметры сильно различаются и зачастую плохо документированы. Тем не менее, я считаю, что изучение именно архитектурных изменений остаётся ценным подходом, позволяющим понять, над чем работают разработчики LLM в 2025 году.
https://habr.com/ru/articles/931382/
#llm #ai #ии #большие_языковые_модели #gpt #deepseek #gemma #mistral #llama #qwen
Прошло семь лет с момента разработки оригинальной архитектуры…
ХабрPer alcuni gli #LLM sono gli oracoli digitali: si chiede e si hanno risposte
Uno studio di AI4TRUST ha dimostrato che #GPT-4o, #Gemini, #Llama e #Grok hanno fornito il 100% di risposte sbagliate a domande relative alla salute
I prompt erano costruiti per favorire l’errore, ma gli LLM non hanno applicato sistemi di controllo e verifica, rivelandosi inattendibili
Uno scenario ideale per gli agenti della #disinformazione
ChatGPT Boasts a 91% Failure Rate for Office Tasks
Researchers have put various AI LLMs to the test to see how well they can handle office tasks. ChatGPT and others didn't fare well.
One of the long running themes I've seen throughout my news writing career is narratives running up against reality and how often reality tends to win out o
https://www.freezenet.ca/chatgpt-boasts-a-91-failure-rate-for-office-tasks/
#Business #News #AI #ChatGPT #fail #Gemini #Llama #LLM #Nova #office
Попытка поставить идеи и гипотезы на поток – швейцарский нож для стартапов
Привет, меня зовут Кирилл! Мы с друзьями давно увлекаемся идеями и экспериментами «в стол». Знакомо, когда возникает куча интересных мыслей, но потом они теряются, потому что сложно понять — кому это на самом деле нужно?
https://habr.com/ru/articles/926228/
#llm #chatgpt #старпат #управление_продуктом #llama #аналитика #маркетинг #сервисы #swotанализ #метрики
Привет, меня зовут Кирилл! Мы с друзьями давно увлекаемся…
ХабрA few of the shrinky dink keychains I made when I was dabbling with them! My first business idea was to make custom keychains, but it was way too high risk of failure at main points in the process. Super fun!
#art #ShrinkyDinks #ShrinkPlastic #succulent #dog #chicken #llama
Георгий Герганов, автор llama.cpp и звукового кейлогера
Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg , которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают программу Ollama для локального запуска моделей на CPU. Но мало кто понимает, что это всего лишь простенькая оболочка вокруг опенсорсной библиотеки llama.cpp на С, которая и делает инференс. Автор этой библиотеки, талантливый разработчик Георгий Герганов , мало известен широкой публике.
https://habr.com/ru/companies/ruvds/articles/923304/
#llamacpp #ollama #llama #llm #Георгий_Герганов #Georgi_Gerganov #lm_studio #LiteLLM #ggml #тензорная_алгебра
Многие пользуются YouTube, Netflix, но не подозревают…
ХабрEl lado del mal - El Ratio Potemkin de Comprensión de Conceptos en los Large Language Models https://www.elladodelmal.com/2025/07/el-ratio-potemkin-de-comprension-de.html #LLM #IA #AI #InteligenciaArtificial #Hallucinations #ChatGPT #Claude #DeepSeek #DeepReasoning #Gemini #Llama
A foundation model to predict and capture human cognition.
https://www.nature.com/articles/s41586-025-09215-4
And the reaction and criticism,
https://www.science.org/content/article/researchers-claim-their-ai-model-simulates-human-mind-others-are-skeptical
A computational model called Centaur, developed by…
NatureLlama 3.1 и «Гарри Поттер»: сколько текста действительно запоминает ИИ?
Может ли искусственный интеллект запомнить целую книгу? А если да, что это значит для авторов, издателей и самих разработчиков ИИ? Недавнее исследование от ученых из Стэнфорда, Корнелла и Университета Западной Виргинии показало, что языковая модель Llama 3.1 может дословно воспроизвести до 42% текста «Гарри Поттера и Философского камня». Это заставляет усомниться в механизмах ограничения памяти ИИ и поднимает вопросы о защите авторских прав. Дальше — как раз об этом.
https://habr.com/ru/companies/ru_mts/articles/924996/
#llm #ml #llama #машинное_обучение #искусственный_интеллект #текстовые_модели
Может ли искусственный интеллект запомнить целую книгу?…
ХабрFor those interested in #AI - How Large Are Large Language Models? #ArtificialIntelligence #LLM #LLMs #GPT #Llama https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e base model trends.md · GitHub
base model trends.md. GitHub Gist: instantly share…
GistEl lado del mal - Generar números aleatorios con un LLM es una muy mala idea de seguridad https://www.elladodelmal.com/2025/07/generar-numeros-aleatorios-con-un-llm.html #LLM #AI #IA #RND #InteligenciaArtificial #ChatGPT #GPT #Llama #DeepSeek
Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных
Извлечение признаков ( feature extraction ) из текстов — ключевой шаг при анализе документов: он является основной практической частью таких задач по обработке данных, как классификация, тематическое моделирование, NER, QA . Если раньше почти что для каждой из таких задач, и в особенности для разных модальностей данных использовались специализированные архитектуры нейронных сетей, то сейчас подобные системы обычно строятся вокруг LLM/VLM . Однако и современные модели на практике настраиваются под конкретные задачи через fine‑tuning или distillation , в связке с retrieval ( RAG ) и агентскими архитектурами. В этой статье я рассматриваю свой опыт проектирования и разработки агентов для выполнения feature-extraction . При наличии мультимодальных данных с разнородной структурой - тексты, PDF, изображения - мне приходится извлекать нужные пользователю фрагменты информации. Для этого я перебрал различные подходы - в зависимости от сложности задачи - и теперь пора сравнить их эффективность и отметить сложности реализации.
https://habr.com/ru/articles/923336/
#ai #ML #openai #llm #Llama #deepseek #chatgpt #machine_learning #artificial_intelligence
Извлечение признаков ( feature extraction ) из текстов…
ХабрWelche KI-Modelle besonders klimaschädlich sind. Einige künstliche Intelligenzen verursachen 50-mal mehr CO2-Emissionen als andere. #KI #KuenstlicheIntelligenz #LLM #KIModelle #DeepSeek #Llama #Cogito
https://www.scinexx.de/news/technik/welche-ki-modelle-sind-besonders-klimaschaedlich/
KI-Systeme im Test: Je nach Prompt und KI-Modell ist…
scinexx | Das WissensmagazinIt took a few hours for a noob like me, but I’m now running multiple self-hosted LLMs from my #Linux server including #DeepSeek, #Llama, and #Mistral.
Accessible remotely too.
I’m using Ngrok to access it remotely, but the free plan doesn’t have a fixed URL which is a pain. I’m open to better alternatives if anyone has any suggestions? #AI
Historia que deixa veure com meta censura el català, quan li preguntem alguna cosa ens contesta i, de sobte, canvia la resposta a una que et diu que no parla català. #censura #llama #Jorgokudi #parlarpernodirres
#elcatalanoestoca
A few of the shrinky dink keychains I made when I was dabbling with them! My first business idea was to make custom keychains, but it was way too high risk of failure at main points in the process. Super fun!
#art #ShrinkyDinks #ShrinkPlastic #succulent #dog #chicken #llama
Book authors made the wrong arguments in Meta AI training case, judge says https://arstechni.ca/8nfR #copyrightinfringement #AItraining #torrenting #copyright #leeching #Policy #LLaMA #meta #AI
Judges clash over “schoolchildren” analogy in key AI…
Ars Technica