Follow

Step-Audio (от создателей Step-Video-T2V) — это среда с открытым исходным кодом для интеллектуального речевого взаимодействия, которая гармонизирует понимание и генерацию, поддерживая многоязычные разговоры, эмоциональные тона, региональные диалекты, регулируемые темпы речи и просодические стили (например, рэп).
Ключевые инновации включают 130B-параметрическую мультимодальную модель, генеративный движок данных для создания аудио-контента и гранулярный контроль голоса, что улучшает интеллект агентов при решении сложных задач.
github.com/stepfun-ai/Step-Aud

Sign in to participate in the conversation
Qoto Mastodon

QOTO: Question Others to Teach Ourselves
An inclusive, Academic Freedom, instance
All cultures welcome.
Hate speech and harassment strictly forbidden.