Arda Kılıçdağı

Do you have any coder LLM recommendations that can run locally with 16 GBs of RAM, other than Qwen-2.5-Coder:7b?

#llm #ollama #localllama

Aug 10, 2025, 18:46 · · · 0 · 0
⚛️Revertron

Ибо так Бог возлюбил... Тьфу, ибо так Ollama накосячила, что даже рестарт службы на сервере не мог её вернуть к нормальному использованию GPU. Пришлось перезагрузить сервак целиком. После этого заработала с GPU. Магия :(

#ollama #llm

Sepia Fan

@kjhealy

Locally tested with #Ollama in German with #Gemma3 (Google LLM) for "Blaubeere".

✅️ Wrong letter count
✅️ Wrong letter positions
(Pic 1)

But if forced to count via "list all letters and then tell the count of X" the #LLM seems to be able to report the correct answer. (Pic 2, two restarted instances)

Aug 08, 2025, 11:46 · · · 0 · 0
Tar

Создание RAG-приложений, сохраняющих конфиденциальность, с помощью LangChain, Ollama и SearXNG: локальный стек ИИ для современной эпохи

Неуклонное движение к облачному ИИ создало критическое напряжение: спрос на сложные языковые модели сталкивается с растущими проблемами конфиденциальности и ростом затрат. Встречайте революцию локального ИИ, где мощные LLM-модели полностью работают на вашем устройстве, а данные никогда не покидают вашу сеть. Объединив LangChain для оркестровки, Ollama для локального выполнения моделей и SearXNG для поиска с ориентацией на конфиденциальность, мы создаем надежный, автономный стек RAG (Retrieval-Augmented Generation), который ставит во главу угла суверенитет пользователя, не жертвуя при этом его возможностями. Этот подход — не просто техническая диковинка, он становится необходимым для предприятий, частных лиц, заботящихся о конфиденциальности, и разработчиков, стремящихся к полному владению данными.

Основы локального RAG-стека

LangChain: Orchestrator

LangChain предоставляет модульную структуру для объединения LLM, источников данных и инструментов в целостные конвейеры. В отличие от монолитных фреймворков, он позволяет разработчикам создавать рабочие процессы RAG, подключая отдельные компоненты — ретриверы, встраиваемые системы и LLM — без необходимости изобретать велосипед. Его преимущество заключается в стандартизированных интерфейсах, обеспечивающих бесшовную интеграцию разрозненных инструментов, таких как SearXNG и Ollama. Как заметил один разработчик, «LangChain превращает хаос локального ИИ в предсказуемый рабочий процесс» [1]. Что особенно важно, он берёт на себя сложную работу по фрагментации документов, векторизации и разработке подсказок, позволяя разработчикам сосредоточиться на своих уникальных данных и вариантах использования.

Ollama: Локальный движок LLM.

Ollama делает доступ к локальному LLM доступным благодаря простому терминальному интерфейсу. Установив Ollama и загрузив модели, такие как llama3:8bили mistral:7b, пользователи мгновенно запускают модели промышленного уровня на своих ноутбуках или серверах. Преимущество Ollama заключается в его эффективности : он оптимизирует загрузку моделей для CPU/GPU, предоставляет REST API для интеграции и поддерживает популярные модели с открытыми весами через свою собственную библиотеку. В отличие от облачных API, модели Ollama работают полностью автономно, что критически важно для конфиденциальных данных. Как подчёркивается в документации Ollama: «Вы владеете своими данными, своими моделями и своей обработкой» [2].

SearXNG: поисковая система, ориентированная на конфиденциальность.

SearXNG — незаметный герой этого стека. Это децентрализованная поисковая система с открытым исходным кодом, которая агрегирует результаты из различных источников (таких как DuckDuckGo, Wikipedia или пользовательские индексы) без отслеживания пользователей и хранения данных . В отличие от API облачного поиска, SearXNG может работать локально в вашей сети, гарантируя, что поисковые запросы никогда не покинут ваш компьютер. Его JSON API, доступный через , предоставляет http://localhost:8080/search?q=example структурированные результаты, идеально подходящие для загрузки в системы RAG. Для приложений, ориентированных на конфиденциальность, SearXNG устраняет «утечку поисковых данных», присущую облачным решениям [3].

Техническая реализация: создание локального конвейера RAG

Давайте создадим реальный пример: персонального помощника по знаниям, который отвечает на вопросы, используя только документы, проиндексированные вами через SearXNG, и не зависит от Интернета.

Шаг 1: Настройка локальных служб

Install Ollama (macOS/Linux)

curl -fsSL https://ollama.com/install.sh | sh

Run Ollama (starts server on localhost:11434)

ollama serve

Install SearXNG (using Podman for simplicity)

podman run -d -p 8080:8080 --name searxng searxng/searxng

Примечание : SearXNG требует минимальной настройки. По умолчанию он индексирует общедоступные источники, но его можно настроить для сканирования локальных документов с помощью searxng файла конфигурации [3].

Шаг 2: Создание конвейера LangChain RAG

from langchain_community.llms import Ollama
from langchain_community.document_loaders import SearXNGLoader
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.retrievers import BM25Retriever

1. Initialize Ollama LLM (uses local model)

llm = Ollama(model="llama3:8b", temperature=0.1)

2. Configure SearXNG as data source (runs locally)

searxng_loader = SearXNGLoader(
searxng_url="http://localhost:8080/search",
query_param="q",
max_results=5,
# Optional: Add custom parameters like 'format=json'
)

3. Load documents via SearXNG (queries your local index)

documents = searxng_loader.load("What is quantum computing?")

4. Create vector store (using Ollama embeddings locally)

embeddings = OllamaEmbeddings(model="nomic-embed-text")
vectorstore = Chroma.from_documents(documents, embeddings)

5. Build hybrid retriever (BM25 for keyword + vector search)

retriever = BM25Retriever.from_documents(documents)
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

6. Create QA chain (retrieves context, then generates answer)

from langchain.chains import RetrievalQA
qa_chain = RetrievalQA.from_chain_type(
llm=llm,
retriever=retriever,
return_source_documents=True
)

7. Query the system (no internet needed!)

response = qa_chain("Explain quantum computing simply")
print(response["result"])

Как это работает под капотом

SearXNG работает локально на localhost:8080, извлекая результаты поиска по вашему запросу из своего индекса (который может представлять собой ваши личные документы или локальную базу данных).
LangChain обрабатывает эти результаты в структурированные документы.
OllamaEmbeddings преобразует документы в векторы на вашем компьютере (используя облегченную модель, такую как nomic-embed-text).
Chroma хранит векторы локально для быстрого поиска.
BM25Retriever объединяет сопоставление ключевых слов с поиском векторов для получения наиболее релевантного контекста.
Ollama генерирует окончательный ответ, используя вашу локальную llama3модель.
Важное замечание : в отличие от облачного RAG, вся обработка данных происходит на вашем устройстве . Запросы SearXNG не отправляются в Google; встраивания не отправляются в OpenAI; LLM не выполняет вызовы API. Это исключает любой внешний доступ к данным [4].

Преимущества: почему этот стек выигрывает

- Нулевая утечка данных : ваши поисковые запросы, содержимое документов и ответы ИИ никогда не покидают ваш компьютер — в отличие от облачного RAG, который передает все данные поставщикам [1].
- Эффективность затрат : избегайте затрат в размере 0,01–0,03 доллара США за запрос к облачным API. Работа на ноутбуке стоимостью 500 долларов США лучше, чем ежемесячная оплата более 10 000 запросов [2].
- Возможность работы в автономном режиме : работает в изолированных средах (например, в военных объектах, лабораториях или удаленных местах) без доступа к Интернету [3].
- Свобода настройки : индексируйте любые источники данных (PDF-файлы, электронные письма, локальные базы данных) с помощью расширяемой архитектуры SearXNG [4].
- Гибкость модели : переключение между моделями llama3, phi-3, или mistralза считанные секунды без изменения кода [2].

Проблемы и реалистичные соображения

-Требования к оборудованию: 8 ГБ ОЗУ для небольших моделей ( phi-3), 16 ГБ+ для llama3:8b(использования --num_ctx 2048в Ollama) [5]
- Индексирование SearXNG: Настройте локальное сканирование документов с помощью SearXNG searxng.yml(например, index /home/user/docs/) [3]
- Качество встраивания: Используется nomic-embed-textдля облегченных локальных внедрений (лучше, чем универсальные all-MiniLM) [5]
- Задержка запроса: Кэшируйте частые запросы; используйте меньшие модели для использования в режиме реального времени (например, phi-3для вопросов и ответов) [4]
- Ключевой компромисс : локальные модели не смогут сравниться с GPT-4 по скорости выполнения всех задач, но для знаний , специфичных для предметной области (например, документы компании, медицинские карты), они превосходят облачные модели, в которых отсутствует контекст ваших данных [4].

Реальные приложения

Соответствие требованиям здравоохранения.

Клиника использует этот стек для создания помощника, соответствующего требованиям HIPAA, который отвечает на вопросы пациентов, используя только свою зашифрованную внутреннюю базу знаний. Никакие данные не покидают больничную сеть, что критически важно для предотвращения штрафов на сумму более 2,5 млн долларов [1].

Управление корпоративными знаниями.

Команда инженеров индексирует более 10 тысяч внутренних документов через SearXNG. Когда сотрудник спрашивает: «Как исправить права доступа к контейнеру S3?», система извлекает точные процедуры из архива компании , не предоставляя данные в AWS [2].

Персональный помощник по конфиденциальности.

Журналист использует этот стек для поиска зашифрованных заметок о конфиденциальных источниках. Каждый запрос обрабатывается локально — метаданные не передаются в Apple или Google [3].

Будущее: за пределами стека

Это не просто техническое решение — это смена парадигмы. По мере того, как такие модели llama3:8bдостигают почти облачной производительности на потребительском оборудовании, цена отказа от локального ИИ становится несостоятельной для случаев, где важна конфиденциальность. Рост популярности SearXNG как «уровня конфиденциальности» для поиска в сочетании с доступностью Ollama означает, что RAG больше не предназначен только для технологических гигантов. Он предназначен для каждого пользователя, который хочет владеть своими данными.

«Следующее десятилетие развития искусственного интеллекта будет зависеть не от облачных провайдеров, а от тех, кто создал систему, которая хранит данные в ваших руках». — Сообщество LangChain, 2024 г.

Заключение

Сочетание LangChain, Ollama и SearXNG создаёт редкий триумф: конфиденциальность , контроль и функциональность — и всё это без зависимости от облака. Это не просто «желание» для защитников конфиденциальности; это единственный жизнеспособный путь для приложений, обрабатывающих конфиденциальные данные, соблюдающих нормативные требования или просто уважающих автономию пользователей. По мере того, как аппаратное обеспечение продолжает демократизировать локальный доступ к LLM, этот стек превратится из нишевого инструмента в стандарт для ответственного ИИ. Будущее RAG не в облаке, а на вашем компьютере, и он готов к развёртыванию уже сегодня.

Ссылки

[1] Документация LangChain: «Рабочие процессы, сохраняющие конфиденциальность» (2024)
[2] Ollama: «Руководство по выполнению локальной модели» (2024)
[3] SearXNG: «Архитектура поиска, ориентированная на конфиденциальность» (2024)
[4] «Локальный RAG для предприятий: 3 практических примера» (MIT Tech Review, 2024)
[5] Ollama Benchmark: «Производительность модели на потребительском оборудовании» (2024)

Создайте свой локальный стек RAG уже сегодня — облако не требуется. 🔒💻

#AI #LLM #Ollama #RAG #Langchain #SearXNG
Aug 08, 2025, 07:32 · · · 1 · 0
Rocky Lhotka 🤘🖖

Just learned that #ollama isn't generally as good as #lmstudio, at least on #windows11. LM Studio uses the GPU for models where ollama falls back to the CPU - which makes a *massive* difference in performance.

Michal Špondr

#OpenAI zveřejnila modely, které je možné spouštět lokálně.
openai.com/index/introducing-g

#ollama už je nabízí ke stažení, tak jdu otestovat. gpt-oss-120b potřebuje 80 GB GPU, na to nemám, ale gpt-oss-20b by mohl fungovat na 16 GB RAM.
#LLM #AI

Mike Stone

@Tymscar I tried it earlier too with #Ollama. I only had a few minutes, and it just generated some error about current date or something. Had to move on, so it's still not resolved.

C++ Wage Slave

If you think MP3 sounds good, choose a song you love that has a detailed, spacious sound, and encode it in #MP3 at low bandwidth. Hear the jangly tuning, the compression artifacts, the lack of detail and stability and the claustrophobic sound. Now that you know it's there, you'll detect it even in MP3 samples at higher bitrates.

This toot is actually about #GenerativeAI. If you can, download #Ollama and try some small models with no more than, say, 4bn parameters. Ask detailed questions about subjects you understand in depth. Watch the models hallucinate, miss the point, make logical errors and give bad advice. See them get hung up on one specific word and launch off at a tangent. Notice how the tone is always the same, whether they're talking sense or not.

Once you've seen the problems with small models, you'll spot them even in much larger models. You'll be inoculated against the idea that #LLMs are intelligent, conscious or trustworthy. That, today, is an important life skill.

GripNews

🌖 Ollama 推出 Turbo 功能,加速模型運行效能
➤ 體驗前所未有的模型運行速度與彈性
ollama.com/turbo
Ollama 公司推出名為「Turbo」的新功能,旨在利用資料中心等級的硬體,大幅提升 AI 模型的推論速度與運行大型模型的可能性。Turbo 功能讓使用者透過 Ollama 的應用程式、命令列介面(CLI)及 API 進行模型運行,同時能將運算負載從個人裝置轉移,節省電池電力並釋放個人電腦的效能。Ollama 強調 Turbo 功能注重使用者隱私,不會保留使用者資料,並提供 hourly 和 daily 的使用上限以確保服務穩定性。
+ 終於有辦法在我的舊筆電上跑比較大的模型了!希望價格親民一些。
+ 看到 Ollama 在隱私上的堅持很不錯,期待 Turbo 功能正式推出後能帶來更流暢的體驗。
#AI 模型 #雲端運算 #Ollama

Ollama

Get up and running with large language models.

ollama.com
Habr

Распознавание текста на изображении и общение с распознанным текстом. Paddle OCR + LLM

Данная статья описывает процесс создания проложения для распознавания текста на изображении и общения с распознанным текстом. В процессе разработки используются: Язык: Python Оптическое Распознавание Символов(OCR): Paddle OCR Площадка для языковой модели: Ollama Большая языковая модель(LLM): qwen2:7b Сетевой фреймворк для API: FastAPI

habr.com/ru/articles/933634/

#ocr #optical_recognition #llm #большие_языковые_модели #ollama #paddlepaddle #paddleocr #ollama_python_librar #qwen

Распознавание текста на изображении и общение с распознанным текстом. Paddle OCR + LLM

Кадр из фильма двухсотлетний человек Данная статья…

Хабр
Habr

Как поднять локальную LLM за 5 минут

Как поднять локальную LLM за 5 минут 🚀 Хотите свой ChatGPT, который работает локально и не требует интернета? В статье показываю, как развернуть Ollama + OpenWebUI в Docker: • Ollama — инструмент для запуска локальных LLM (LLaMA, Mistral, Gemma и др.) • LLaMA — серия открытых языковых моделей от Meta • OpenWebUI — удобный веб-интерфейс, похожий на ChatGPT, но для ваших локальных моделей Минимальные требования: 8 GB RAM, 4 CPU, 25 GB диска. Всё сводится к трём шагам: Установить Docker Настроить docker-compose с Ollama и OpenWebUI Зайти в локальный веб-интерфейс и протестировать свою LLM 🎉 💻 Код, конфиги и пошаговая инструкция в статье!

habr.com/ru/articles/933908/

#ollama #openwebui #llm

Как поднять локальную LLM за 5 минут

Кратко по терминам Ollama — это инструмент, который…

Хабр
Al Sutton

So I'm playing with some technologies while I look for my next work adventure, and I now have a #AI Code Review action that uses #ollama and is set up to review PRs to its own repository.

The comments aren't great, but it's showing promise. Some of the concerns are slop, others are things that I'd expect from a junior dev unfamiliar with the code.

The performance, however, is pretty good, given I'm using Ollama on an #AppleSilicon m4 Mac mini.

Here's an example;
github.com/alsutton/ollama-pr-

Use the main tip for self-reviews by alsutton · Pull Request #2 · alsutton/ollama-code-reviewer-action

GitHub
Aug 04, 2025, 11:59 · · · 0 · 0
Hirad

One of the biggest advantages of Ollama over llama.cpp is its ability to automatically unload models. It removes the model from vram after 5 mins of being idle and that's very useful.

#Ollama #llamacpp #llama #LLM #AI

Hirad

I'm considering to test llama.cpp and see if I prefer it over Ollama.
The good thing about Ollama is the ease of use, but it's terrible when it comes to model format. Meanwhile llama.cpp even though more complex, it simply works with gguf files, which makes things much easier.
Also in terms of performance, llama.cpp is supposed to be better than Ollama. But I have to try it to know for sure.

#Ollama #llamacpp #llama #LLM #AI

Daniel Detlaf

AI - Erotica - Advertisement

#ollama #AI #erotica #advertisement #porn #adult #writing

You can prompt up some sexy time on your local Ollama with an erotica-tuned Mistral 7b 👀

btcpay812425.lndyn.com/apps/2s

Michael Blume

@root42

Ja, früher war alles besser... ;-)

Ernsthaft: Es gibt auch hier im #Fediversum eine sehr aktive Szene, die bereits lokale KI-Anwendungen ausprobieren, beispielsweise via #Ollama.

@musenhain

ollama.org/de/

Ollama - KI-Modelle

Erkunden Sie Ollama kostenlos und online. Ollama wurde…

Ollama - KI-Modelle