@Revertron Требований я не видел. Я знаю, что в 16G в среднем влезают максимум 13B модели.
Плюс, спасибо @rayslava, посмотрел статистику по методам квантизации и стараюсь брать Q4_K_M если есть - там обещается в среднем меньше путаницы.

Могу посмотреть по факту сколько ест просто.

**ZD915** @zd915@qoto.org · 2024-05-24T06:27:49Z

ZD915 @zd915@qoto.org

@skobkin в мой сервер влезает только низкопрофильное, из доступных в окружающих магазинах максимум 4гб 1050i. Есть ли смысл ставить, или маловато для домашнего ии? @Revertron @rayslava

May 24, 2024, 06:27 · · · ·

**Шуро** @shuro@friends.deko.cloud · May 24, 2024, 06:53

**Шуро** @shuro@friends.deko.cloud · May 24, 2024, 06:53

May 24, 2024, 06:53

Шуро @shuro@friends.deko.cloud

@skobkin @Revertron @rayslava @zd915 Есть работающие на ОЗУ и ЦП.

Картинки я рисовал и на 2ГБ VRAM на ноутбуке, но было немного печально, генерация по несколько минут.

**Alexey Skobkin** @skobkin@lor.sh · May 24, 2024, 11:46

**Alexey Skobkin** @skobkin@lor.sh · May 24, 2024, 11:46

May 24, 2024, 11:46

Alexey Skobkin @skobkin@lor.sh

@shuro @Revertron @rayslava @zd915
> Есть работающие на ОЗУ и ЦП.

Это будет больно если не мощный CPU. При этом если использовать в режиме чата, то каждый последующий ответ будет генерироваться всё дольше и дольше (контекст растёт), что на CPU может быть совсем больно.

Я тут уже по-моему постил видео пример того как какая-то 7B модель работает на достаточно хорошему Ryzen 7900X. В целом с этим можно жить, но не всегда комфортно.

Вот:
https://lor.sh/@skobkin/111983662454301471

Тут был пример первого ответа в чате на 7900X. Но если этот чат состоит из десятков реплик, то это всё будет ЗАМЕТНО медленнее.

**LyrionTannister** @LyrionTannister@mastodon.ml · May 24, 2024, 21:18

**LyrionTannister** @LyrionTannister@mastodon.ml · May 24, 2024, 21:18

May 24, 2024, 21:18

LyrionTannister @LyrionTannister@mastodon.ml

@shuro @skobkin @Revertron @rayslava @zd915 я тут случайно олламу на макбуке рабочем запустил, и удивился, что скорость ответа почти реалтайм, походу триллионы tps их NPU задействуются по полной, ибо нагрузки на проц не вижу, но вот объединенная память при каждом ответе на 90% под ламу улетает только в путь

**Alexey Skobkin** @skobkin@lor.sh · May 24, 2024, 11:18

**Alexey Skobkin** @skobkin@lor.sh · May 24, 2024, 11:18

May 24, 2024, 11:18

Alexey Skobkin @skobkin@lor.sh

@zd915 @Revertron @rayslava
Я ставил с кронштейном и райзером, т.к. прямо в мать тоже не лезла.

**LyrionTannister** @LyrionTannister@mastodon.ml · May 24, 2024, 21:21

**LyrionTannister** @LyrionTannister@mastodon.ml · May 24, 2024, 21:21

May 24, 2024, 21:21

LyrionTannister @LyrionTannister@mastodon.ml

@skobkin @zd915 @Revertron @rayslava кстати, смотрю на дискретные карточки интел, в плане в домашний мини ящичек поставить что-то такое, что сможет и гта5 потянуть, и оупен цл, и при этом стоить копейки за выдаваемый перф. Не могу понять, как они за такие копейки так хорошо работают на уровне зеленых 4060

**Alexey Skobkin** @skobkin@lor.sh · May 24, 2024, 21:50

**Alexey Skobkin** @skobkin@lor.sh · May 24, 2024, 21:50

May 24, 2024, 21:50

Alexey Skobkin @skobkin@lor.sh

@LyrionTannister @zd915 @Revertron @rayslava
У интеллов новых очень много нюансов с драйверами и тем, что они не могут по сравнению с другими.
Они развиваются, конечно, но пока что сложно сказать, что это универсальное решение для всего.
У них, например, с производительностью на каких-то версиях DirectX проблемы.

Trending now

Resources

Developers

What is Mastodon?

qoto.org

More…