Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

Следует отметить также, что продолжают развиваться научные исследования в области создания систем автоматического синтеза. Эти работы, направленные в основном на повышение качества (раз­борчивости и естественности) синтезируемой речи (без существен­ного повышения объема информации, требуемой для управления син-

44

двзатором), проводятся в США [103, 112, 129, 133, I??] , СССР f48, 63, 54] , Японии [l3b,I62] , Великобритании [l64] , Канаде [167] , Франции [146 171] , Италии [l60,JSl] , Мексике [ill],За­падной Германии [122, 184] , Норвегии [137] и других странах.

В [142] отмечается, что ЭВМ пятого поколения (мультиыикро-процессорные машины) будут гораздо шире, чем современные ЭЗУ, ис­пользовать ввод и вывод информации в речевой форме. Предполага­ется, что уже в ближайшее время ЭВМ, оборудованные системами ре­чевого вывода, настолько проникнут в нашу жизнь, что совершенно изменят взаимоотношения человека и техники.

В основе систем автоматического речевого ответа, поступаю­щих в настоящее время на рынок, лежат три основных способа син­теза рэчи - непосредственное кодирование речевой волны (дискрети-аация и сжатие), форматный синтез и синтез, основанный на линей­ном предиктивном кодировании (линейном предсказании). В [б] приво­дятся системы автоматического речевого вывода - наиболее распрост­раненные в настоящее время в США системы такого рода. Так, в сис-томч Votrax процесс формирования устного высказывания по тексту, поступившему из ЭВМ или с клавиатуры в закодированном виде,начи­нается о разбивки текста на основные звуковые влементы - фо­немы. Так как фонемная цепочка, соответствующая тексту, не обес­печивает высокочастотной речи, то эта цепочка программно преоб­разуется в цепочку аллофонных кодов (аллофоны - это варианты произнесения фонем в зависимости от контекста; разные исследо­ватели называют различное число аллофонов для каждого языка;в сис­теме Votrax используется 12Ь аллофонов, что позволяет получать более естественную речь). Для порождения слитной речи аллофоны Должны плавно переходить друг в друга.

Каждому аллофону соответствует управляющее слово, воздейству­ющее на аппаратный синтезатор звуков, который в два этапа пере­рабатывает цепочку 12-разрядных управляющих слов. На первом этапе Управляющее слово декодируется и перерабатывается в аналоговые управляющие сигналы, задающие частоту основного тона, длительность изменения во времени амплитуды и гармоник, связанных с каждым ал-Яофоном. На втором этапе реализуется собственно синтез. При этом параметрические сигналы, воздействуя на генераторы звука и прог-Рачмируемые фильтры, преобразуются в звуки речи. Звонкие звуки °оздаются с помощью генератора регулируемой высоты тона, а глу­хие - с помощью генератора бел го шума.

В приборах Texas Instruments три большие интегральные сис-^ы (БИС) моделируют голосовой тракт человека. В основе модели •вяит метод линейного предсказания (или линейного предиктивного ко-

45

дирования - ЛПК). При ЛПК на кристалл синтезатора подаются зна­чения коэффициентов для цифрового фильтра второго порядка,кото­рый моделирует динамику форматных частот. Вычисление коэффициен­тов фильтра производит другая БИС - микропроцессор тыз -1000. Третья БИС хранит отдельные части слов в параметрическом виде. Воссоздание речи по этим параметрам осуществляет сложный прог­раммный алгоритм.

Преимущество метода ЛПК заключается в тс-л, что он позво­ляет воспользоваться тем фактом, что голосовой тракт человека от­носительно медленно меняет свои параметры при речеобразовании.Это свойство ограничивает диапазон изменения форматных параметров, которые могут следовать за форматами уже с генерированных от­резков звуков речи. Такое прогнозирование уменьшает требования к объему памяти системы, а также к скорости обмена данными; с опи­сываемой системой она равна 1200 бит/с.

Синтезатор National Semiconduoton Inc. способен осущест­влять анаяого-цифровое преобразование речевых сигналов и сохра­нять их в памяти для дальнейшего восстановления. Такой метод предполагает огромный объем информации, которая должна храниться в памяти, что делает его малопривлекательным. Однако в рассмат­риваемой системе эта трудность обходится за счет использования различных методов сжатия данных. Это позволило реализовать ка­чественный синтез речи во временной области на уровне &1С.

Дискретизацию и сжатие исходной речи, записанной на магнит­ной ленте, осуществляет мини-ЭВМ. Результирующие данные сохра­няются в постоянном запоминающем устройстве (ПЗУ) для последую­щего восстановления, осуществляемого БИС процессора речи. Благо­даря применению Трех методов сжатия (подстройки фазового угла, дельта-модуляции и полупериодного обнуления) скорость поступления данных, по которым восстанавливается нормальная речь, снижается примерно до 1000 бит/с речи, так что по ПЗУ емкостью 10 кбит мож­но хранить примерно 10 слов.

Процесс сяатия начинается с дискретизации аналогового рече­вого Сигнала и разделения цифрового массива на участки, в каждом из которых 128 оГсчетов; эти участки в какой-то степени характе­ризуют периоды основного тона. Для получения набора цифровых вы­борок, аналогичных формируемому предложению, подстраиваются фа­зовые углы этих отрезков. Дальнейшее сжатие осуществляется с по­мощью дельта-модуляции, в результате чего вместо хранения абсо­лютной амплитуды каждой выборки в память записываются только знаки приращения амплитуд относительно предшествующего значения.

46

рассмотрим далее более подробно несколько современных сис­тем параметрического синтеза.

В ГЮО] описана разработанная фирмой Texas Instrument a программа, позволяющая преобразовывать произвольный текст в речь. Программа совместно с интегральным синтезатором речи типа tms-5й00 позволяет читать вслух информацию, отражаемую на экране дисплея домашнего компьютера 9S14. В отличив от Speak and Spell система не иоподозувт записанные ранее в ПЗУ слова и фразы, а синтезирует слова из 128 аллофонов (аналогично системе Votrax описанной ранее), которые объединяются системой для образования слитной речи. Программа преобразования текста в цепочку аллофонов выбирает аллофоны из библиотеки и определяет их ударение и инто­нацию. Затем эта информация поступает в блок синтеза речи, ко­торый формирует звуки, используя кодирование, основанное на линей­ном предсказании.

Блок-схема преобразования текста в речь, реализованного Texas Instruments, представлена на рис.I.I.

Аллофоны имеют переменную длительность от 50 до 200 мс и ко­дируются в соответствии с параметрами, необходимыми для орга­низации синтеза, основанного на линейном предсказании. Библиотека аллофонов, включающая длинные и короткие паузы, кодируется по энер­гиям и коэффициентам, необходимым для установки характеристик фильтра ЛПК-синтезатора. Библиотека аллофонных кодов занимает 3 кбайта памяти.

Для преобразования текста, поступающего на вход в пооледова-тедьность аллофонов, используется набор из 650 правил, который в процессе испытаний обеспечивал правильный выбор 97^ фонем и 92% аллофонов. Правила занимают 7 кбайт памяти. Программа конструиро-

Синтез речи


Страница: