Habr

[Перевод] Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи. Разумеется, позиционные эмбеддинги эволюционировали от абсолютных к роторационным (RoPE), Multi-Head Attention в значительной степени уступил место Grouped-Query Attention, а более эффективная SwiGLU заменила такие функции активации, как GELU. Но если отбросить эти незначительные усовершенствования, действительно ли мы наблюдаем принципиальные архитектурные сдвиги — или просто продолжаем полировать одни и те же фундаментальные конструкции? Сравнение LLM между собой с целью выявления ключевых факторов, влияющих на их качество (или недостатки), по-прежнему остаётся крайне нетривиальной задачей: датасеты, методы обучения и гиперпараметры сильно различаются и зачастую плохо документированы. Тем не менее, я считаю, что изучение именно архитектурных изменений остаётся ценным подходом, позволяющим понять, над чем работают разработчики LLM в 2025 году.

habr.com/ru/articles/931382/

#llm #ai #ии #большие_языковые_модели #gpt #deepseek #gemma #mistral #llama #qwen

Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

Прошло семь лет с момента разработки оригинальной архитектуры…

Хабр
jadi

PocketPal is an Open Source & Free software which lets you run LLMs (actually SLMs) on your tablet & phone.

youtu.be/BAHyuoJCISk

#llama #gemma #slm #ios #android

- YouTube

Enjoy the videos and music you love, upload original…

www.youtube.com
gualdo :privacypride: :cc:

Per alcuni gli #LLM sono gli oracoli digitali: si chiede e si hanno risposte

Uno studio di AI4TRUST ha dimostrato che #GPT-4o, #Gemini, #Llama e #Grok hanno fornito il 100% di risposte sbagliate a domande relative alla salute

I prompt erano costruiti per favorire l’errore, ma gli LLM non hanno applicato sistemi di controllo e verifica, rivelandosi inattendibili

Uno scenario ideale per gli agenti della #disinformazione

#AI #Bigtech #disinformation #misinformation

Freezenet

ChatGPT Boasts a 91% Failure Rate for Office Tasks

Researchers have put various AI LLMs to the test to see how well they can handle office tasks. ChatGPT and others didn't fare well.

One of the long running themes I've seen throughout my news writing career is narratives running up against reality and how often reality tends to win out o

freezenet.ca/chatgpt-boasts-a-

#Business #News #AI #ChatGPT #fail #Gemini #Llama #LLM #Nova #office

Habr

Попытка поставить идеи и гипотезы на поток – швейцарский нож для стартапов

Привет, меня зовут Кирилл! Мы с друзьями давно увлекаемся идеями и экспериментами «в стол». Знакомо, когда возникает куча интересных мыслей, но потом они теряются, потому что сложно понять — кому это на самом деле нужно?

habr.com/ru/articles/926228/

#llm #chatgpt #старпат #управление_продуктом #llama #аналитика #маркетинг #сервисы #swotанализ #метрики

Попытка поставить идеи и гипотезы на поток – швейцарский нож для стартапов

Привет, меня зовут Кирилл! Мы с друзьями давно увлекаемся…

Хабр
Joy

A few of the shrinky dink keychains I made when I was dabbling with them! My first business idea was to make custom keychains, but it was way too high risk of failure at main points in the process. Super fun!

#art #ShrinkyDinks #ShrinkPlastic #succulent #dog #chicken #llama

Habr

Георгий Герганов, автор llama.cpp и звукового кейлогера

Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg , которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают программу Ollama для локального запуска моделей на CPU. Но мало кто понимает, что это всего лишь простенькая оболочка вокруг опенсорсной библиотеки llama.cpp на С, которая и делает инференс. Автор этой библиотеки, талантливый разработчик Георгий Герганов , мало известен широкой публике.

habr.com/ru/companies/ruvds/ar

#llamacpp #ollama #llama #llm #Георгий_Герганов #Georgi_Gerganov #lm_studio #LiteLLM #ggml #тензорная_алгебра

Георгий Герганов, автор llama.cpp и звукового кейлогера

Многие пользуются YouTube, Netflix, но не подозревают…

Хабр
Habr

Llama 3.1 и «Гарри Поттер»: сколько текста действительно запоминает ИИ?

Может ли искусственный интеллект запомнить целую книгу? А если да, что это значит для авторов, издателей и самих разработчиков ИИ? Недавнее исследование от ученых из Стэнфорда, Корнелла и Университета Западной Виргинии показало, что языковая модель Llama 3.1 может дословно воспроизвести до 42% текста «Гарри Поттера и Философского камня». Это заставляет усомниться в механизмах ограничения памяти ИИ и поднимает вопросы о защите авторских прав. Дальше — как раз об этом.

habr.com/ru/companies/ru_mts/a

#llm #ml #llama #машинное_обучение #искусственный_интеллект #текстовые_модели

Llama 3.1 и «Гарри Поттер»: сколько текста действительно запоминает ИИ?

Может ли искусственный интеллект запомнить целую книгу?…

Хабр
Habr

Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных

Извлечение признаков ( feature extraction ) из текстов — ключевой шаг при анализе документов: он является основной практической частью таких задач по обработке данных, как классификация, тематическое моделирование, NER, QA . Если раньше почти что для каждой из таких задач, и в особенности для разных модальностей данных использовались специализированные архитектуры нейронных сетей, то сейчас подобные системы обычно строятся вокруг LLM/VLM . Однако и современные модели на практике настраиваются под конкретные задачи через fine‑tuning или distillation , в связке с retrieval ( RAG ) и агентскими архитектурами. В этой статье я рассматриваю свой опыт проектирования и разработки агентов для выполнения feature-extraction . При наличии мультимодальных данных с разнородной структурой - тексты, PDF, изображения - мне приходится извлекать нужные пользователю фрагменты информации. Для этого я перебрал различные подходы - в зависимости от сложности задачи - и теперь пора сравнить их эффективность и отметить сложности реализации.

habr.com/ru/articles/923336/

#ai #ML #openai #llm #Llama #deepseek #chatgpt #machine_learning #artificial_intelligence

Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных

Извлечение признаков ( feature extraction ) из текстов…

Хабр
Matt Keil

It took a few hours for a noob like me, but I’m now running multiple self-hosted LLMs from my #Linux server including #DeepSeek, #Llama, and #Mistral.

Accessible remotely too.

I’m using Ngrok to access it remotely, but the free plan doesn’t have a fixed URL which is a pain. I’m open to better alternatives if anyone has any suggestions? #AI

Jordi :goku: :estelada_groga:

Historia que deixa veure com meta censura el català, quan li preguntem alguna cosa ens contesta i, de sobte, canvia la resposta a una que et diu que no parla català. #censura #llama #Jorgokudi #parlarpernodirres
#elcatalanoestoca

Joy

A few of the shrinky dink keychains I made when I was dabbling with them! My first business idea was to make custom keychains, but it was way too high risk of failure at main points in the process. Super fun!

#art #ShrinkyDinks #ShrinkPlastic #succulent #dog #chicken #llama