К слову, мы тут как-то на регулярках и вне обсуждали распознавание картинок нейросеточками.

Я тогда говорил про Stable Diffusion, но совсем забыл про мультимодальные модели вроде llava.

Закрою этот недочёт показав примеры работы одного из вариантов этой мультимодалки на обоях по Interstellar.

Работает, если что, не в облаке, а на моём домашнем сервере.

#LLM #AI #ML #multimodal #ollama #selfhosting #local #video #demo

@Revertron
Да.

Я недавно плюнул и всё-таки купил в сервер видеокарту 🤷‍♂️

@skobkin И сколько вирамы эта сетка требует?

@Revertron Требований я не видел. Я знаю, что в 16G в среднем влезают максимум 13B модели.
Плюс, спасибо @rayslava, посмотрел статистику по методам квантизации и стараюсь брать Q4_K_M если есть - там обещается в среднем меньше путаницы.

Могу посмотреть по факту сколько ест просто.

Follow

@skobkin в мой сервер влезает только низкопрофильное, из доступных в окружающих магазинах максимум 4гб 1050i. Есть ли смысл ставить, или маловато для домашнего ии? @Revertron @rayslava

@skobkin @Revertron @rayslava @zd915 Есть работающие на ОЗУ и ЦП.

Картинки я рисовал и на 2ГБ VRAM на ноутбуке, но было немного печально, генерация по несколько минут.

@shuro @Revertron @rayslava @zd915
> Есть работающие на ОЗУ и ЦП.

Это будет больно если не мощный CPU. При этом если использовать в режиме чата, то каждый последующий ответ будет генерироваться всё дольше и дольше (контекст растёт), что на CPU может быть совсем больно.

Я тут уже по-моему постил видео пример того как какая-то 7B модель работает на достаточно хорошему Ryzen 7900X. В целом с этим можно жить, но не всегда комфортно.

Вот:
lor.sh/@skobkin/11198366245430

Тут был пример первого ответа в чате на 7900X. Но если этот чат состоит из десятков реплик, то это всё будет ЗАМЕТНО медленнее.

@shuro @skobkin @Revertron @rayslava @zd915 я тут случайно олламу на макбуке рабочем запустил, и удивился, что скорость ответа почти реалтайм, походу триллионы tps их NPU задействуются по полной, ибо нагрузки на проц не вижу, но вот объединенная память при каждом ответе на 90% под ламу улетает только в путь

@zd915 @Revertron @rayslava
Я ставил с кронштейном и райзером, т.к. прямо в мать тоже не лезла.

@skobkin @zd915 @Revertron @rayslava кстати, смотрю на дискретные карточки интел, в плане в домашний мини ящичек поставить что-то такое, что сможет и гта5 потянуть, и оупен цл, и при этом стоить копейки за выдаваемый перф. Не могу понять, как они за такие копейки так хорошо работают на уровне зеленых 4060

@LyrionTannister @zd915 @Revertron @rayslava
У интеллов новых очень много нюансов с драйверами и тем, что они не могут по сравнению с другими.
Они развиваются, конечно, но пока что сложно сказать, что это универсальное решение для всего.
У них, например, с производительностью на каких-то версиях DirectX проблемы.

Sign in to participate in the conversation
Qoto Mastodon

QOTO: Question Others to Teach Ourselves
An inclusive, Academic Freedom, instance
All cultures welcome.
Hate speech and harassment strictly forbidden.