Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

В С89] рассмотрены и некоторые другие свойства просодии, по­ложенные в о&нову правил преобразования "текст - речь" и обеспечи­вающие высокую разборчивость и естественность синтетической речи.

52

вГ2] подробно описана лингвистическая и фонетическая сторона паботы, которую необходимо выполнить при реализации качественно­го синтеза речи по произвольному тексту. Важнейшими этапами иссяедований здесь являются:

- создание более совершенной модели речевого тракта;

- определение более полного набора абстрактных правил линг­вистического описания текста;

- разработка полного свода правил, позволяющих вывести фоне­тические описания по правилам лингвистического описания текста (дравид преобразования букв в звуки);

- формализация морфофонематичаских правил и правил лексичес­кого ударения, которые дают на уровне слов окончательную коррек­цию цепочки фонем (аллофонов);

- грамматический анализ предложений, раскрывающий иерархичес­кую природу их построения для определения правильности интонацион­ного контура;

- более тщательное иосдедование просодических коррелят линг­вистических структур.

Отметим особую важность создания хорошей модели речевого трак­та, параметры которой изменяются в соответствии с правилами ре-чвобразования. Хорошая модель позволяет существенно онизить объем информации, описывающей форму речевого сигнала (вырабатываемого на Мходе модели из небольшого числа параметров), а также более глубоко и еотеотвенно описать речевые явления. При параметри­ческом синтезе информация о фонемах (аллофонах) запоминается в виде комплекса параметров и правил модификации отих параметров под влиянием различных ограничений. В связи о этим для повыше­ния качества синтеза необходимы структурные модели, отражающие ащ ограничения на различных уровнях - артикуляторном, дистрибу­тивом, словообразовательном, синтаксическом и семантическом. Эти иодеди должны координироваться гибкой структурой управления,обео-почивающей их взаимодействие.

Для повышения естественности и разборчивости речи, генерируе-"ой форматными синтезаторами, в [176 ] предлагается использо­вать вычисление форматных параметров на более коротких интервалах, что позволяет улучшило синхронный с основным тоном анализ. 1домен-т^ смыкания голосовых связок характеризуются импульсным воабужде" нием. На первом этапе анализа оцифрованной волны такие точки воз-°Й<дения легко выделяются (со средней точностью) процедурой пи-Чового детектирования. (Во время шумового возбуждения эти точки ^определяются случайно, тогда как при возбуждении речевого сиг-

53

нала импульсами голосовых связок большинство таких точек соот­ветствует моментам смыкания связок.) Даяее, для каждого отрезка волны длительностью 10 мс с помощью ДПФ вычисляется 33-точечный логарифмированный энергетический спектр. Временные отсчеты для получения спектра берутся, начиная с момента, соответствующего найденной точке возбуждения. Если десятимиллисекундный сегмент содержит одну точку возбуждения, то логарифмы энергетического спектра вычисляются по формуле

^ = '° Чю \ Ц, ^ ехр (-^тп/32 \ '•

где п = 0 - 32; Л„, - отсчеты речевой волны, следующие за момен­том возбуждения; У - оценка (в дБ) логарифма энергетического спектра на частотах 156, 25 х п (в Гц).

Итеративный анализ составляющих этого спектра и позволяет оценить все требуемые для синтезатора формантные параметры. Процедура итеративного анали-а посредством синтеза (когда спектр, синтезированный по приближенным формантным параметрам речи, сравнивается с реальным спектром входной речевой волны, и если расхождения велики, производится уточнение формант) позволяет получать параметры качественной синтетической речи.

В ряде работ подчеркивается, что для повышения естествен­ности синтезированной речи целесообразно разработать хорошие правила корректировки микро- и макровариаций частоты основного тона, длительности звуков и интенсивности. Полная модель генера­ции частоты основного тона, его микро- и макровариаций рассмот­рена в Ll04] , где исследовались различные синтетические струк­туры, позволившие выявить, в частности, влияние модальности на контур основного тона в вопросо-ответных системах при переме­щении центрального слова фразы (слово, на которое делается ак­цент при вопросе). (Формирование контура ochobhofj тона будет более подробно рассмотрено в п.1.4.4).

В [113'] предлагается для повышения качества синтезирован­ной речи (полученной методом линейного предсказания), поступаю­щей на наушники, использовать эффект бинауральной реверберации который можно смоделировать, подав синтезированную речь на гром­коговоритель и записав (в условиях реальной комнаты) прошедшув через громкоговоритель речь в два канала через разнесенные мик­рофоны. Полученные таким способом сигналы поступают на правый и левый наушники, создавая у слушателя впечатление более естест' венной речи.

54

для повышения натуральности речи в [162] предлагается про-записывать на магнитный диск больший емкости сообщения в Siawe параметров, представляющих собой набор раноон -коэффициен­тов. Требуемые фразы считываются в буферную память. На стоме­габайтном диске можно таким образом записать 5000 сообщений яжительностыо по 15 с каждое. Время выборки сообщения 0,1 с,мак-симвльное число возможных каналов, по которым может поступать информация, - 128.

Ряд работ, появившихся в последние годы, посвящен повыше-шф качества синтезированной речи за счет модернизации модели источников возбуждения. Модель смешанного источника возбуждения рассмотрена в [1523 . Смешение достигается делением речевого спектра на две области - низкочастотную, возбуждаемую импульс-нк« источником, и высокочастотную, которая возбуждается шумовым источником. Для определения степени оэвончения вводится пара­метр fc • показывающий частоту отсечки между звонкой и глухой областями. Для компрессии речи Fp может выцеляться автомати­чески из речевого спектра и передаваться в управляющие цепи. Эксперименты, при которых использовалась новая модель, показали ее эффективность при синтезе звонких фрикативных и помогли ис-кяючить характерное "жужжание" вокодерной речи.

8 [166 3 описана новая функция возбуждения для синтеза,ис­пользующего коэффициенты линейного предсказания. Эта функция за счет соответствующего сглаживания, инверсной фильтрации и усече­ния верхушки сохраняет фазовые характеристики импульсов возбуж­дения, Поступающих из голосовой щели. Отмечается, что качество речи при этом существенно улучшается, а между тем до последнего времени в lpg-синтезаторах слишком мало усилий было направлено на поиск более соответствующих реальным функций возбуждения рачаобразующего тракта из-за того, что не были установлены чет­кие соотношения между остатком линейного предсказания и формой возбуждающей волны.

В [137] описан LPU-синтеэатор речи, разработанный в Норвегии. По мнении авторов, он обеспечивает высококачественную речь (при высокой компрессии) за счет использования более совер-аенной модели смешанного возбуждения. В модели предусмотрено использование:


Страница: