Теперь разработчики смогут бесплатно использовать в своих проектах технологию «ВКонтакте», которая считывает голос и переводит его в текст.
Как рассказал технический директор компании Александр Тоболь на открытии конференции Saint HighLoad++, технология распознавания речи внедряется в несколько кликов: нейросети хорошо справляются с аудио с шумами, большим количеством сленга и сокращений.
— Для распознавания можно выбрать одну из двух моделей: нейтральная подойдёт для разборчивой речи, как в телешоу или интервью, а спонтанная поможет, когда нужно обработать более обыденную речь со сленгом, — отмечается в сообщении.
Нейросети «ВКонтакте» обрабатывают файлы за несколько секунд, умеют удалять из расшифровки шумы и паузы, понимают неразборчивую речь и даже звук «ъ». Технологию можно попробовать через веб-интерфейс на специальной странице или интегрировать через публичный API «ВКонтакте».
ASR используется ВКонтакте для расшифровки голосовых сообщений, генерации субтитров в видео, персональных рекомендаций и многого другого. Технология построена таким образом, чтобы справляться с ежедневной обработкой сотен миллионов сообщений разной длительности, качества и наполнения.
Напомним, ранее 78.ru писал о том, что соцсеть «ВКонтакте» запустила уникальные цифровые аватары vmoji.