Подразделение Google AI разработало функциональную модель диаризации звукового потока и описало в новую систему искусственного интеллекта, которая эффективно маркирует говорящих, пишет «Хайтек+».
Диаризация — процесс разделения входящего аудиопотока на сегменты по принадлежности к тому или иному говорящему — дается машинам сложнее, чем людям, и обучать этому умению алгоритмы сложнее, чем кажется. Надежная система диаризации должна распознавать высказывания новых участников диалога, чтобы дать ответ на вопрос: «Кто сейчас говорит?».
Специалисты Google AI добились снижения коэффициента ошибок диаризации до 7,6%. По их словам, этого достаточно, чтобы начать применять технологию на практике.
Новый подход основан на математическом представлении слов и фраз говорящего рекуррентной нейронной сетью — разновидностью нейросети, которая использует свое внутреннее состояние для обработки входной последовательности. Каждый говорящий начинает с собственной копии рекуррентной сети, которая отслеживает появление новых фраз и позволяет системе обучаться, обмениваясь информацией, пишет VentureBeat.
«Поскольку все элементы этой системы изучаются контролируемым образом, она предпочтительнее неконтролируемых систем в тех сценариях, когда доступны обучающие данные с высококачественными временными метками дикторов», — говорится в статье.
«Наша система полностью контролируема и может учиться на примерах, где проставлены временные отметки» — также отмечается в статье.
В дальнейшем ученые планируют улучшить свою модель так, чтобы она могла включать контекстуальную информацию для выполнения операций офлайн. Также они надеются научиться моделировать звуковые параметры напрямую, чтобы всю систему можно было обучать от начала и до конца. Это должно еще больше повысить ее надежность.
Недавно канадские специалисты представили алгоритм распознавания речи, который работает даже на бюджетных смартфонах. Одна из созданных ими моделей была запущена на телефоне Motorola Moto E с процессором Cortex-A53 с частотой 1,4 ГГц и показала десятикратное уменьшение времени ожидания по сравнению с современными нейросетями.