И снова дошли руки до фоновой задачи "потестить нейросетки на замену whisper". Из протестированного по-быстрому:
* nvidia/parakeet-tdt-0.6b-v3 — отлично распознаёт, причём, в отличие от whisper, на CPU за время, меньшее длительности аудио, причём в разы.
* nvidia/canary-1b-v2 — сходу не завелась, похоже хочет немного не тех библиотек, либо в доках чего-то нехватает. Не копал.
* facebook/seamless-m4t-v2-large — отлично создаёт пустой ответ при запуске как в документации.
* ai-sage/GigaAM-v3 — чуть-чуть покопал, но как сервис не запустил — предлагаемое для работы требует промежуточного файла. Сейчас ещё немного поковыряю на тему "чего тебе ещё надо, собака". Если не получится воткнуть в сервис, сделанный для диаризации собеседников — забью. #лытдыбр #компутерное #работа

Follow

@stanislavv parakeet-tdt-0.6b-v3 норм русский слэнг распознаёт?

Sign in to participate in the conversation
Qoto Mastodon

QOTO: Question Others to Teach Ourselves
An inclusive, Academic Freedom, instance
All cultures welcome.
Hate speech and harassment strictly forbidden.