Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

Ранее уже отмечалось, что каждому слову синтезируемого вы­сказывания приписывается некое значение акцента в соответствии с его рангом по порядку важности. Контур изменения f. (подъем и падение) тем резче, чем важнее слово. Акцентирование слова сни­жается, если оно обнаруживается в магазинном запоминающем уст­ройстве, т.е. оно уже недавно произнесено.

Система верхнего уровня снабжает каждое слово входного выс­казывания просодическими индикаторами (рис. 1.3), обеспечивающими получение просодического контура на нижнем уровне анализа.К таким

64

индикаторам относятся связанные с каждым словом числа, опре­деляющие а) акцент, б) границу, указывающую позицию слова внутри йразы / предложения (положительное число определяет позицию отно­сительно начала фразы, отрицательное - относительно конца; при этом большие числа соответствуют словам на границах, отмеченных знаком препинания, и на границах между большими и / иди важ-щдаи фразами); в) продолжительный подъем fg , т.е. число, пока­зывающее величину подъема на границе слова, что отражает важ­ность синтаксической границы, предшествующей этому слову; г) тип тона (А, В или нулевой^, показывающий, относится данное слово и конечному участку фразы с нарастанием или падением fg или не относится (при типе А падение Уд идет до более низкого уровня, чем в других случаях, а при типе В подъем fg продолжает расти после лексически ударного слога, что не характерно для других случаев).

Наряду с просодическими индикаторами каждого слова, система верхнего уровня вводит в систему низшего уровня число слогов, место лексически ударного слога, фонемную структуру, которая для каждого слога дополнительно указывает, начинается ли он или за­канчивается взрывным звуком и не является ли этот взрывной глу­хим.

Рассмотрим далее работу системы нижнего уровня, формирующей контур основного тона. Алгоритм устанавливает на лексически удар­ных слогах каждого важного слова сначала пиковые уровни /д, после чего вокруг каждого пика строятся акцентированные подъемы и па­дения частоты основного тона. Затем добавляются участки общего контура, соответствующие участкам постепенного нарастания и конеч­ным типам тона. Наконец, заполняются по соответствующим прави­лам и остальные участки; контур основного тона высказывания сформулирован.

Пики основного тона устанавливаются пропорционально величине акцента для каждого важного слова, однако по отношению к на­чальным словам высказывания пики имеют некую тенденцию к умень­шению. К ним добавляется наклонная линия, такая, что для слов равного .акцента каждое последующее значение частоты /„ на пике •^УДет уменьшаться пропорционально наклону этой кривой. Величина этого наклона для предложений, заканчивающихся тыом тона В, более полога по сравнению с другими предложениями. Каждое пред-^«ение получает свою линию наклона в зависимости от того,в ка-^ом месте общего высказывания находится предложение (и, естествен-н0» в зависимости от пда тона, которым заканчивается предло­жение) . Пики каждого предложения уменьшаются от начала к концу

Зак.480 65

всего высказывания, но при этом соблюдается тенденция.что на­чальный пик каждого предложения более высокий, чем последний пик частоты основного тона предыдущего предложения, но более низкий чем первый пик этого предыдущего предложения. Такие линии нак-жона являются в какой-то степени опорными при формировании кон­тура, так что более длинные предложения начинаются с более вы­соких пиков fg .

Каждый лексически ударный слог значимого слова приобретает контур /о , характеризующийся подъемом и спадом» отношения меж. ду которыми определяются числами, характеризующими границы. Боль­шие положительные числа ведут к значительному подъему, а большие отрицательные - к значительному спаду. Величины подъемов и спа-доа пропорциональны акценту, но зависят также и от числа со­седних неакцентированных слогов. Большое временное разделение меж­ду акцентированными слогами ведет к большему отношению на этом участке, характеризующему провал.

Информация о продолжительных подъемах / кодируется в чи­сле, стоящем после последнего слога каждого слова; это число характеризует и высоту подъема, и его длительность.Формирование контура /д на неакцентированных участках высказывания основано на том, что в высказываниях частота /д имеет тенденцию к по­нижению. Учет фонемической структуры слогов приводит к тому, что на участках высказываний, соответствующих глухим взрывным, контур основного тона отсутствует, а акцентированные слоги с начальными взрывными имеют более высокие пики f , чем слоги, начинающиеся со звонких. Изменение длительностей звуков синтетической речи рассмотрено ранее в п. 1.4.2. Не представляет особых проблем формирование контура интенсивности, в какой-то степени коррели­рованного с контуром основного тона; имеются известные соот­ношения между средней интенсивности ударных и безударных гласных, сонорных согласных,фрикативных и смычных согласных (включающих участки смычек), что позволяет автоматически формировать контур интенсивности по фонетической цепочке.

1.4.5. Алгоритмическое и программное обеспечение синтеза речи. Создание алгоритмического и программного обеспечения син­теза речи рассматривается в ряде публикаций. Разрабатываются его циализированные языки для перевода графем в фонемы CI26] , 8 также системы программных модулей, обеспечивающих автоматический анализ текста и синтеза речи [103, 133] . Системный подход к созданию программного обеспечения синтеза речи становится все бо­лее определяющим.

66

В CI26] рассматривается разработанный в0 Франции специализи­рованный язык программирования ТОР, предназначенный для перевода гоафем французского текста в соответствующие фонемы. Язык ТОР ( Transcription Orthographlque Phonetique ) - это язык правил опи­сания, применение которых зависит от контекста. Программы, напи­санные на языке ТОР, содержат три части:

1) описание используемых кодов;

2) описанир классов (необязательное);

3) правила.

Система правил основана на частичном упорядоченном мно­жестве фонологических правил французского языка. Левая часть каж­дого правила указывает на графему, которую необходимо перекоди­ровать в фонему (указанную в правой части) при условии, что известен буквенный контекст, в котором находится перекодируемая графема.

В С.ЮЗ] описана модульная система речевого ответа, представ­ляющая собой большое количество программных модулей (по одному ^ля каждой структурной области), связанных между собой множеством информационных структур. Каждая структурная область (т.е. морфо­логия, синтаксис, семантика, фонология) делает свой вклад в об­щую систему, но взаимоотношения этих областей с лингвистической структурой высказывания не всегда однозначны из-за индивидуаль­ных акустических особенностей синтезируемой волны. Различные структурные области должны 1ыть представлены так, чтобы можно было обеспечить их оптимальное взаимодействие. Лишь таким об­разом можно установить сложные отношения между поверхностной ре­чевой волной и лежащей в ее основе абстрактной лингвистичес­кой структурой, которая должна быть смоделирована глубоко и все­сторонне .


Страница: