Распознавание речи

Распознавание речи - процесс преобразования речевого сигнала в текстовый поток. Более корректно: Распознавание речи, поскольку "распознать язык" непосредственно означает ответить, какому языку принадлежит сегмент речевого сигнала или текста. Часто используется в наборе технологий, позволяющих управлять компьютером, используя человеческий голос, вводить информацию голосом диктовать, транскрибировать (стенографировать) фонограммы.


1. История

Первое устройство для распознавания устной речи появился в 1952 году, он мог распознавать произносимые человеком цифры. [1] В 1964 году на ярмарке компьютерных технологий в Нью-Йорке был представлен устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травм рук не в состоянии набирать большое количество текста. Эти программы (например, Dragon Naturally Speaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надежность перевода у таких программ не слишком высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания устной речи. Среди таких программ стоит отметить Microsoft Voice Command, которая позволяет работать со многими приложениями с помощью голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

В компьютерах Apple Macintosh в настройках системы есть встроенная функция Speech, которая способна анализировать команды пользователя при нажатии определенной клавиши, или если команде пользователя предшествует ключевое слово.

Еще одной интересной программой является Speereo Voice Translator - голосовой переводчик. SVT способна распознавать фразы, произнесенные на английском языке, и "говорить" в ответ перевод на одном из выбранных языков.

Для украинского языка известна разработка распознавания речи, которая позволяет вводить текст голосом. Эта система работает со словарем более 100000 слов. Ее можно скачать и использовать для диктовки текстов средней сложности.

Интеллектуальные речевые приложения, позволяющие автоматически синтезировать и распознавать устную речь, является следующим этапом развития интерактивных голосовых систем IVR. Использование интерактивного телефонного программного обеспечения в наше время [ Когда? ] является не данью моде, а жизненной необходимостью. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания - вот только некоторые преимущества, доказывающие целесообразность подобных программ.

Однако, прогресс не стоит на месте и в последнее время в телефонных интерактивных программах все чаще используют системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, поскольку выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека. Основным преимуществом голосовых систем является доброжелательность к пользователю - он избавляется от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню. Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит абонента в нужный пункт меню.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (интерфейсов Безмолвный / артикуляторного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикуляции. Этот этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной произношения при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подвергаются воздействию шумов, как дополнение к обработанным акустических сигналов.


Примечания

  1. Davies, KH, Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24 (6) pp.637 - 642

См.. также



Литература

  • Т.К. Винцюк. Анализ, распознавание и смысловая интерпретация речевых сигналов. - Киев. Научная мысль, 1987.
  • Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ. / Под ред. В. Ли. - М.: Мир, 1983. - Кн. 1. 328 с., Ил.
  • Синтез и распознавание речи. Современные решения: А.В. Фролов, Г.В. Фролов.