Надо Знать

добавить знаний



Синтез речи



План:


Введение

Синтез речи - преобразование печатного текста в речевой сигнал (в широком смысле - восстановление формы речевого сигнала по его параметрам). Устройство, которое осуществляет синтез речи, называется синтезатором речи.


1. История

Синтез речи имеет долгую историю, обросшая легендами. Еще в Х веке Герберту Аврилакському приписывали владение искусством изготовления терафима - мертвой головы, что говорит. Сделанная из бронзы, эта глава словами "да и нет" отвечала на вопросы любого, кто к ней обращался. В середине века монах-доминиканец Альберт фон Больштедт и английский философ -естествоиспытатель Роджер Бэкон также пытались создавать первые образцы голов "говорят".

В конце XVIII века датский ученый Кристиан Кратценштейн, член Российской Академии Наук, создал модель речевого тракта человека, способного произносить пять долгих гласных звуков (а, е, и, о, у). Модель была системой акустических резонаторов различной формы, которые выдавали громкие звуки с помощью вибрирующих язычков. В 1778 австрийский ученый Вольфганг фон Кампелен дополнил модель Кратценштейна моделями языка и губ и представил акустическую-механическую машину, что говорит, способную воспроизводить определенные звуки и их комбинации. Шипящие и свистящие пускали с помощью специального меха с ручным управлением. В 1837 ученый Чарльз Уитстоун представил улучшенный вариант машины, способен воспроизводить гласные и большинство согласных звуков. А в 1846 году Джозеф Фабер продемонстрировал свой ​​euphonia, орган, говорит. В нем было реализовано попытку синтезирования не только речи, но и пения.

В конце XIX века известный ученый Александр Белл создал собственную механическую модель, что "говорит", очень схожую по конструкции с машиной Уитстоуна. С началом XX века началась эра электрических машин, и ученые получили возможность использовать генераторы звуковых волн и на их базе строить алгоритмические модели.

В 1930-х годах работник Bell Labs Гомер Дадли, работая над проблемой увеличения передающей способности в телефонии, разработал вокодер (сокращенно от англ. voice - Голос, англ. coder - Кодировщик) - управляемый с помощью клавиатуры электронный анализатор и синтезатор речи. Идея Дадли заключалась в анализе речевого сигнала, разбора его на части и пересинтезация в менее требовательную к пропускной способности линии. Усовершенствованный вариант вокодера Дадли, VODER, был представлен на Нью-Йорской всемирной выставке 1939 года

Первые синтезаторы речи звучали довольно неестественно, и часто было трудно разобрать производимые ими фразы. Однако качество синтезированной речи постоянно улучшалось, и язык, генерируемый современными системами синтеза, порой не отличить от реальной человеческой речи. Но несмотря на успехи электронных синтезаторов речи, исследования в области создания механических синтезаторов речи ведутся до сих пор, например, для использования в работах -гуманоида.

Первые системы синтеза речи на базе вычислительной техники стали появляться в конце 1950-х годов, а первый синтезатор "текст-речь" был создан в 1968.


2. Способы синтеза речи

Все способы синтеза речи можно подразделить на три группы: {ref | sorokinref}

  • параметрический синтез;
  • конкатенативного, или синтез компиляции (компилятивный)
  • синтез по правилам.

2.1. Параметрический синтез

Параметрический синтез речи является конечной операцией в вокодерних системах, где речевой сигнал представляется набором небольшого числа параметров, непрерывно меняются. Параметрический синтез целесообразно применять в тех случаях, когда набор сообщений ограничен и изменяется не очень часто. Достоинством такого способа является возможность записать речь для любого языка и любого диктора. Качество параметрического синтеза может быть очень высокой (в зависимости от степени сжатия в параметрическом представлении). Однако параметрический синтез не может применяться для любых, заранее не заданных сообщений.


2.2. Компиляционный синтез

Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря исходных элементов синтеза. Размер элементов синтеза не меньше слова. Очевидно, что содержание сообщений, синтезируемых фиксируется объемом словаря. Как правило, число единиц словаря не превышает нескольких сотен слов. Основная проблема в компилятивного синтеза - объемы памяти для хранения словаря. В связи с этим используются различные методы сжатия / кодирования речевого сигнала. Компилятивный синтез имеет широкое практическое применение. За рубежом разнообразные устройства (от военных самолетов в бытовых устройств) оснащаются системами речевого ответа. В нашей стране системы речевого ответа до недавнего времени использовались в основном в области военной техники, сейчас они находят все большее применение в повседневной жизни, например, в справочных службах операторов сотовой связи при получении информации о состоянии счета абонента.


2.3. Полный синтез речи по правилам

Полный синтез речи по правилам (или синтез по печатным текстом) обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестным текстом. В этом случае параметры, полученные при анализе речевого сигнала, сохраняются в памяти так же, как и правила соединения звуков в слова и фразы. Синтез реализуется путем моделирования речевого тракта, применения аналоговой или цифровой техники. Причем в процессе синтезирования значения параметров и правила соединения фонем вводят последовательно через определенный временной интервал, например 5-10 мс. Метод синтеза речи по печатным текстом (синтез по правилам) базируется на запрограммированном знании акустических и лингвистических ограничений и не использует непосредственно элементов человеческой речи. В системах, основанных на этом способе синтеза, выделяется два подхода. Первый подход направлен на построение модели речетворческого системы человека, он известен под названием артикуляторного синтеза. Второй подход - формантный синтез по правилам. Разборчивость и натуральность таких синтезаторов может быть доведена до величин, сравнимых с характеристиками естественного языка.

Синтез речи по правилам с использованием предварительно запомненных отрезков естественного языка, - это разновидность синтеза речи по правилам, которая получила распространение в связи с появлением возможностей манипулирования речевым сигналом в оцифрованной форме. В зависимости от размера исходных элементов синтеза выделяются следующие виды синтеза:

  • микросегментний (микроволновый)
  • алофоничний;
  • дифонний;
  • напивскладовий;
  • составной;
  • синтез из единиц произвольного размера.

Обычно как элементы используются напивсклады - сегменты, содержащие половину согласного и половину смежного с ним гласного. При этом можно синтезировать речь по заранее не заданным текстом, но трудно управлять интонационными характеристиками. Качество такого синтеза не соответствует качеству естественной речи, поскольку на границах сшивания дифонив часто возникают искажения. Компиляция языка из заранее записанных словоформ также не решает проблемы высококачественного синтеза произвольных сообщений, поскольку акустические и просодические (длительность и интонация) характеристики слов изменяются в зависимости от типа фразы и места слова во фразе. Это положение не меняется даже при использовании больших объемов памяти для хранения словоформ.


3. Применение синтеза речи

Синтез речи по тексту или коду сообщения может быть использован в технике связи, в информационно-справочных системах, для помощи слепым и немым, при управлении человеком со стороны автомата, для выдачи информации о технологических процессах, в военной и космической технике, в робототехнике , в акустическом диалоге человека с компьютером. Вообще, синтез речи может потребоваться во всех случаях, когда получателем информации является человек.

См.. также

Примечания

  1. ^ В таком определении преобразование звукового давления в электрическое напряжение и наоборот в микрофоне и телефоне, а также запись и воспроизведение, например, с магнитных носителей не является синтезом. Дискретизация и квантование речевого сигнала при импульсно-кодовой модуляции также не относятся к синтезу речи, но генерация речевого сигнала в вокодерних системах может считаться синтезом.
  2. ^ На странице Dennis Klatt's History of Speech Synthesis - www.cs.indiana.edu / rhythmsp / ASA / Contents.html, посвященной истории развития синтезаторов речи, представлены звуковые файлы с записями различных синтезаторов речи. Есть файл с записью звука вокодера Хомер Дадли.
  3. ^ Например, японские ученые из лаборатории Таканисы (takanishi Laboratory) университета Васеда (waseda University) работают над созданием антропоморфические модели робота, говорит. Последняя их разработка ( 2005) - модель Waseda Talker No.5 - имеет весь набор языковых инструментов: легкие, гортань, мягкое небо, язык, зубы, губы и т.д.. В целом все эти органы имеют 18 степеней свободы. На их странице Anthropomorphic Talking Robot Waseda-talker Series - www.takanishi.mech.waseda.ac.jp/research/voice/ можно ознакомиться с подробной информацией, в частности фотографиями и видеозаписями.

5. Использованная литература

  1. {Note | sorokinref} Сорокин В. Н. Синтез речи. - М.: Наука, 1992, с. 392.

код для вставки
Данный текст может содержать ошибки.

скачать

© Надо Знать
написать нам