These are public posts tagged with #ollama. You can interact with them if you have an account anywhere in the fediverse.
Do you have any coder LLM recommendations that can run locally with 16 GBs of RAM, other than Qwen-2.5-Coder:7b?
Создание RAG-приложений, сохраняющих конфиденциальность, с помощью LangChain, Ollama и SearXNG: локальный стек ИИ для современной эпохи
Неуклонное движение к облачному ИИ создало критическое напряжение: спрос на сложные языковые модели сталкивается с растущими проблемами конфиденциальности и ростом затрат. Встречайте революцию локального ИИ, где мощные LLM-модели полностью работают на вашем устройстве, а данные никогда не покидают вашу сеть. Объединив LangChain для оркестровки, Ollama для локального выполнения моделей и SearXNG для поиска с ориентацией на конфиденциальность, мы создаем надежный, автономный стек RAG (Retrieval-Augmented Generation), который ставит во главу угла суверенитет пользователя, не жертвуя при этом его возможностями. Этот подход — не просто техническая диковинка, он становится необходимым для предприятий, частных лиц, заботящихся о конфиденциальности, и разработчиков, стремящихся к полному владению данными.Основы локального RAG-стека
LangChain: Orchestrator
LangChain предоставляет модульную структуру для объединения LLM, источников данных и инструментов в целостные конвейеры. В отличие от монолитных фреймворков, он позволяет разработчикам создавать рабочие процессы RAG, подключая отдельные компоненты — ретриверы, встраиваемые системы и LLM — без необходимости изобретать велосипед. Его преимущество заключается в стандартизированных интерфейсах, обеспечивающих бесшовную интеграцию разрозненных инструментов, таких как SearXNG и Ollama. Как заметил один разработчик, «LangChain превращает хаос локального ИИ в предсказуемый рабочий процесс» [1]. Что особенно важно, он берёт на себя сложную работу по фрагментации документов, векторизации и разработке подсказок, позволяя разработчикам сосредоточиться на своих уникальных данных и вариантах использования.Ollama: Локальный движок LLM.
Ollama делает доступ к локальному LLM доступным благодаря простому терминальному интерфейсу. Установив Ollama и загрузив модели, такие как llama3:8bили mistral:7b, пользователи мгновенно запускают модели промышленного уровня на своих ноутбуках или серверах. Преимущество Ollama заключается в его эффективности : он оптимизирует загрузку моделей для CPU/GPU, предоставляет REST API для интеграции и поддерживает популярные модели с открытыми весами через свою собственную библиотеку. В отличие от облачных API, модели Ollama работают полностью автономно, что критически важно для конфиденциальных данных. Как подчёркивается в документации Ollama: «Вы владеете своими данными, своими моделями и своей обработкой» [2].SearXNG: поисковая система, ориентированная на конфиденциальность.
SearXNG — незаметный герой этого стека. Это децентрализованная поисковая система с открытым исходным кодом, которая агрегирует результаты из различных источников (таких как DuckDuckGo, Wikipedia или пользовательские индексы) без отслеживания пользователей и хранения данных . В отличие от API облачного поиска, SearXNG может работать локально в вашей сети, гарантируя, что поисковые запросы никогда не покинут ваш компьютер. Его JSON API, доступный через , предоставляет http://localhost:8080/search?q=example структурированные результаты, идеально подходящие для загрузки в системы RAG. Для приложений, ориентированных на конфиденциальность, SearXNG устраняет «утечку поисковых данных», присущую облачным решениям [3].Техническая реализация: создание локального конвейера RAG
Давайте создадим реальный пример: персонального помощника по знаниям, который отвечает на вопросы, используя только документы, проиндексированные вами через SearXNG, и не зависит от Интернета.Шаг 1: Настройка локальных служб
Install Ollama (macOS/Linux)curl -fsSL https://ollama.com/install.sh | sh
ollama serve
podman run -d -p 8080:8080 --name searxng searxng/searxng
Шаг 2: Создание конвейера LangChain RAG
from langchain_community.llms import Ollama
from langchain_community.document_loaders import SearXNGLoader
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.retrievers import BM25Retriever
llm = Ollama(model="llama3:8b", temperature=0.1)
searxng_loader = SearXNGLoader(
searxng_url="http://localhost:8080/search",
query_param="q",
max_results=5,
# Optional: Add custom parameters like 'format=json'
)
documents = searxng_loader.load("What is quantum computing?")
embeddings = OllamaEmbeddings(model="nomic-embed-text")
vectorstore = Chroma.from_documents(documents, embeddings)
retriever = BM25Retriever.from_documents(documents)
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
from langchain.chains import RetrievalQA
qa_chain = RetrievalQA.from_chain_type(
llm=llm,
retriever=retriever,
return_source_documents=True
)
response = qa_chain("Explain quantum computing simply")
print(response["result"])
Как это работает под капотом
SearXNG работает локально на localhost:8080, извлекая результаты поиска по вашему запросу из своего индекса (который может представлять собой ваши личные документы или локальную базу данных).Преимущества: почему этот стек выигрывает
- Нулевая утечка данных : ваши поисковые запросы, содержимое документов и ответы ИИ никогда не покидают ваш компьютер — в отличие от облачного RAG, который передает все данные поставщикам [1].Проблемы и реалистичные соображения
-Требования к оборудованию: 8 ГБ ОЗУ для небольших моделей ( phi-3), 16 ГБ+ для llama3:8b(использования --num_ctx 2048в Ollama) [5]Реальные приложения
Соответствие требованиям здравоохранения.
Клиника использует этот стек для создания помощника, соответствующего требованиям HIPAA, который отвечает на вопросы пациентов, используя только свою зашифрованную внутреннюю базу знаний. Никакие данные не покидают больничную сеть, что критически важно для предотвращения штрафов на сумму более 2,5 млн долларов [1].Управление корпоративными знаниями.
Команда инженеров индексирует более 10 тысяч внутренних документов через SearXNG. Когда сотрудник спрашивает: «Как исправить права доступа к контейнеру S3?», система извлекает точные процедуры из архива компании , не предоставляя данные в AWS [2].Персональный помощник по конфиденциальности.
Журналист использует этот стек для поиска зашифрованных заметок о конфиденциальных источниках. Каждый запрос обрабатывается локально — метаданные не передаются в Apple или Google [3].Будущее: за пределами стека
Это не просто техническое решение — это смена парадигмы. По мере того, как такие модели llama3:8bдостигают почти облачной производительности на потребительском оборудовании, цена отказа от локального ИИ становится несостоятельной для случаев, где важна конфиденциальность. Рост популярности SearXNG как «уровня конфиденциальности» для поиска в сочетании с доступностью Ollama означает, что RAG больше не предназначен только для технологических гигантов. Он предназначен для каждого пользователя, который хочет владеть своими данными.Заключение
Сочетание LangChain, Ollama и SearXNG создаёт редкий триумф: конфиденциальность , контроль и функциональность — и всё это без зависимости от облака. Это не просто «желание» для защитников конфиденциальности; это единственный жизнеспособный путь для приложений, обрабатывающих конфиденциальные данные, соблюдающих нормативные требования или просто уважающих автономию пользователей. По мере того, как аппаратное обеспечение продолжает демократизировать локальный доступ к LLM, этот стек превратится из нишевого инструмента в стандарт для ответственного ИИ. Будущее RAG не в облаке, а на вашем компьютере, и он готов к развёртыванию уже сегодня.Ссылки
[1] Документация LangChain: «Рабочие процессы, сохраняющие конфиденциальность» (2024)Just learned that #ollama isn't generally as good as #lmstudio, at least on #windows11. LM Studio uses the GPU for models where ollama falls back to the CPU - which makes a *massive* difference in performance.
#OpenAI zveřejnila modely, které je možné spouštět lokálně.
https://openai.com/index/introducing-gpt-oss/
#ollama už je nabízí ke stažení, tak jdu otestovat. gpt-oss-120b potřebuje 80 GB GPU, na to nemám, ale gpt-oss-20b by mohl fungovat na 16 GB RAM.
#LLM #AI
If you think MP3 sounds good, choose a song you love that has a detailed, spacious sound, and encode it in #MP3 at low bandwidth. Hear the jangly tuning, the compression artifacts, the lack of detail and stability and the claustrophobic sound. Now that you know it's there, you'll detect it even in MP3 samples at higher bitrates.
This toot is actually about #GenerativeAI. If you can, download #Ollama and try some small models with no more than, say, 4bn parameters. Ask detailed questions about subjects you understand in depth. Watch the models hallucinate, miss the point, make logical errors and give bad advice. See them get hung up on one specific word and launch off at a tangent. Notice how the tone is always the same, whether they're talking sense or not.
Once you've seen the problems with small models, you'll spot them even in much larger models. You'll be inoculated against the idea that #LLMs are intelligent, conscious or trustworthy. That, today, is an important life skill.
Ollama 推出 Turbo 功能,加速模型運行效能
➤ 體驗前所未有的模型運行速度與彈性
✤ https://ollama.com/turbo
Ollama 公司推出名為「Turbo」的新功能,旨在利用資料中心等級的硬體,大幅提升 AI 模型的推論速度與運行大型模型的可能性。Turbo 功能讓使用者透過 Ollama 的應用程式、命令列介面(CLI)及 API 進行模型運行,同時能將運算負載從個人裝置轉移,節省電池電力並釋放個人電腦的效能。Ollama 強調 Turbo 功能注重使用者隱私,不會保留使用者資料,並提供 hourly 和 daily 的使用上限以確保服務穩定性。
+ 終於有辦法在我的舊筆電上跑比較大的模型了!希望價格親民一些。
+ 看到 Ollama 在隱私上的堅持很不錯,期待 Turbo 功能正式推出後能帶來更流暢的體驗。
#AI 模型 #雲端運算 #Ollama
Get up and running with large language models.
ollama.comРаспознавание текста на изображении и общение с распознанным текстом. Paddle OCR + LLM
Данная статья описывает процесс создания проложения для распознавания текста на изображении и общения с распознанным текстом. В процессе разработки используются: Язык: Python Оптическое Распознавание Символов(OCR): Paddle OCR Площадка для языковой модели: Ollama Большая языковая модель(LLM): qwen2:7b Сетевой фреймворк для API: FastAPI
https://habr.com/ru/articles/933634/
#ocr #optical_recognition #llm #большие_языковые_модели #ollama #paddlepaddle #paddleocr #ollama_python_librar #qwen
Кадр из фильма двухсотлетний человек Данная статья…
ХабрКак поднять локальную LLM за 5 минут
Как поднять локальную LLM за 5 минут Хотите свой ChatGPT, который работает локально и не требует интернета? В статье показываю, как развернуть Ollama + OpenWebUI в Docker: • Ollama — инструмент для запуска локальных LLM (LLaMA, Mistral, Gemma и др.) • LLaMA — серия открытых языковых моделей от Meta • OpenWebUI — удобный веб-интерфейс, похожий на ChatGPT, но для ваших локальных моделей Минимальные требования: 8 GB RAM, 4 CPU, 25 GB диска. Всё сводится к трём шагам: Установить Docker Настроить docker-compose с Ollama и OpenWebUI Зайти в локальный веб-интерфейс и протестировать свою LLM
Код, конфиги и пошаговая инструкция в статье!
Кратко по терминам Ollama — это инструмент, который…
ХабрSo I'm playing with some technologies while I look for my next work adventure, and I now have a #AI Code Review action that uses #ollama and is set up to review PRs to its own repository.
The comments aren't great, but it's showing promise. Some of the concerns are slop, others are things that I'd expect from a junior dev unfamiliar with the code.
The performance, however, is pretty good, given I'm using Ollama on an #AppleSilicon m4 Mac mini.
Here's an example;
https://github.com/alsutton/ollama-pr-review-action/pull/2
#TIL you can get gguf models with Ollama, directly from huggingface.co!
We’re on a journey to advance and democratize artificial…
huggingface.coI'm considering to test llama.cpp and see if I prefer it over Ollama.
The good thing about Ollama is the ease of use, but it's terrible when it comes to model format. Meanwhile llama.cpp even though more complex, it simply works with gguf files, which makes things much easier.
Also in terms of performance, llama.cpp is supposed to be better than Ollama. But I have to try it to know for sure.
AI - Erotica - Advertisement
#ollama #AI #erotica #advertisement #porn #adult #writing
You can prompt up some sexy time on your local Ollama with an erotica-tuned Mistral 7b
https://btcpay812425.lndyn.com/apps/2sRGBWV1JoFru1fkxA8QctMryCpi/pos
Ja, früher war alles besser... ;-)
Ernsthaft: Es gibt auch hier im #Fediversum eine sehr aktive Szene, die bereits lokale KI-Anwendungen ausprobieren, beispielsweise via #Ollama.
Erkunden Sie Ollama kostenlos und online. Ollama wurde…
Ollama - KI-Modelle