Step-Audio (от создателей Step-Video-T2V) — это среда с открытым исходным кодом для интеллектуального речевого взаимодействия, которая гармонизирует понимание и генерацию, поддерживая многоязычные разговоры, эмоциональные тона, региональные диалекты, регулируемые темпы речи и просодические стили (например, рэп).
Ключевые инновации включают 130B-параметрическую мультимодальную модель, генеративный движок данных для создания аудио-контента и гранулярный контроль голоса, что улучшает интеллект агентов при решении сложных задач.
https://github.com/stepfun-ai/Step-Audio