Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

zapdash - параметры речевого сигнала, определяющие интегральные характеристики звуков в низкочастотном (< I кГц) и высокочастотном ( >1 кГц) диапазонах. Эти параметры выделяются в реальном масштабе времени из сигнале, поступающего с АЦП в мини-ЭВМ, которая обладает средним быстродействием 600 тыс. операций в I с. Параметры (число нулевых пересечений и амплитудное значение сигнала на интервале анализа для каждого из диапазонов) формируются программно, и их значения дают возможность грубо классифицировать сегменты на 10 различных типов - пауэы (глухая смычка), наличие звонкой смычки, характеризующие звонкие взрывные б, д,г, сонорный согласный, глухой фрикативный (переднеязычный или заднеязычный), носовой, свистящий, гласный высокого иди низкого подъема. В дальнейшем производится пере классификация сегментов на 59 классов, некоторые из них пересекаются в пространстве признаков.

На второй стадии к среднему участку сегментов применяют сравнение с эталонами (этих эталонов для каждого класса сегментов может быть до 100). При сравнении средний участок сегмента по-ступившей на вход реализации сравнивается с множеством эталонов, которые подучены от специально обученных дикторов. Использование сегментации I уровня позволяет, как отмечается в [l79], ускорить общую сегментацию в пять раз по сравнению с унифицированной, основанной .исключительно на коэффициентах линейного предсказания.

Как уже отмечалось, ключевой проблемой систем понимания Речи является верификация сдоврсиьк гипотез.подожданных различ-иыми источниками знаний. Блок словесной верификации должен оце-нвдь, насколько акустические данные входной реализации соответствуют фонетической транскрипции гипотезируеного слова.

2S

В соответствии с оценкой, словесный верификатор отбрасывает большее числе гипотезированных слов, сохраняя возможные пра~ вильные, чтобы впоследствии отобрать единственное с помощью инфор~ мации высших уровней.

В Hearsay -П слова порождаются либо словесным гипотезато-ром снизу вверх (блоком POMOW), либо преде называются сверху вниз семантико-синтаксическим блоком sass . Блок словесной верификации wizard обрабатывает гипотезы о словах снизу вверх, используя акустическую информацию и результаты автоматической сегментации. Каждый сегмент высказывания представлен вектором фонемных вероятностей (т.е. с каждым отрезком высказывания связываются определенные звуки, которым присваиваются некие веса), Каждое слово словаря записывается эталонным графом возможных фонетических произнесений, учитывающим все альтернативные варианты произнесений. Однородная модель, используемая блоком словесной верификации, дает возможность найти оптимальное совпадение одного из эталонов (соответствующее пути на одном из эталонных графов) и участка входной реализации, соответствующего слову.

В системе Hearsay-П при словесной верификации стыки между словами не рассматриваются, делается лишь их внутренняя обработка. wizard пытается верифицировать слова, как будто они находятся в изоляции.

При верификации слова обрабатываются снизу вверх следующим образом: предсказанные моменты начала и конца слова связываются с соответствующими сегментами высказывания bseg и eseg. Исследуются все пути в эталонных графах возможных слов, которые совпадают с отрезками и входной реализацией. Сравниваются с эталонами отрезки, которые начинаются в (baeg-I: beeg +I ) и заканчиваются в jeseg -I I eeeg +I(, т.е. параллельно рассматриваются девять возможных участков высказывания, что приводит к девяти оптимальным путям на эталонных графах, из которых выбирается тот. оценки которого наибольшие, или наиболее соответствуют рассматриваемому участку. Сдвиг на один сегмент вправо или влево позволяет избегать ошибок при представлении входного, высказывания (акустических данных) различными источниками знаний. В результате блок словесной верификации может изменять время словесных гипотез, а также их оценки. Следует отметить, что если в проектах ВШ (Speechlis и HWIM) идет непосредственный переход от фонетического описания к словесному, то в Hearsay-П используется еще промежуточный, слоговый уровень между словами и звуковыми сегментами. Для поддержки словесных гипотез используются так называемые типовые слоги, слоготипы (syltypes).

Ццея слоготипов сводится к тому, что слоги, имеющие похожие сегменты (например "та", " па"), относятся к одному типу. Никаких попыток различать слова с одинаковыми слогами в Нвагвау-П не делается. Каждый слоготип характеризуется слоговым ядром, определяемым эвристически присвоенными сегментными метками и положением максимума энергии на отрезке. Для каждого слоготипа гипотези-руются слова, в которых встречается данный слог; многосложные слова отбрасываются, если плохо согласовываются о последовательностью слоготипов. Подробное описание слогового гипотезатора pokow содержится в С 1783.

В Неагаау-П содержится еще один гипотезатор - гипотеза-тор словесных последовательностей wozeq. В сравнении со стратегией однословных "островков надежности" многословная последовательность желательна по двум причинам:

1) доверие к гипотезе о последовательности сдов более высоко, чем в однословной гипотезе;

<;) правильность оценки (в очках) для последовательности слов выие, чем для одного слова. (Последовательность слов использует избыточность языка, йероятность того, что гилотияируемая последовательность правильна, может превосходить вероятность того, что правильно одно слово. Сравнение оценок, основанных на средних оценках нескольких составляющих, статистически более надежно, чем сравнение, основанное на оценке одной составляющей.)

Синтаксический и семантический источники знаний в Неагвау-п представляются блоком sass . Этот блок имеет дело с гипотезами, представляющими слова, словосочетания или фразы, воспринятые или предложенные. Задача sass - найти наиболее правдоподобное предложение по последовательности смежных слов. Правдоподобие определяется достоверностью словесных гипотез и грамматической правильностью и осмысленностью предложения. Как уже отмечалось, в и«эаг-aay-il многочисленные альтернативы представляются в общей информационной базе и обрабатываются параллельно независимыми информационно направляемыми программными блоками - модулями источников знаний, которые создают, проверяют и переписывают гипотезы о высказывании, запоминая их на доске. Одна размерность доски - уровень представления, другая - время, третья - вероятность правильности гипотезы, оцениваемая в очках. С точки зрения sass общую информационную базу ("классную доску") можно рассматривать как схему гипотезированных слов, порождаемых различными источниками знаний. Вертикальные измерения - это очки (в диапазоне - 100 * -» +100), оценивающие достоверность словесных гипотез.

31

30

Проблемы, стоящие перед семантико-синтаксическиы блоком -неопределенный комбинаторный поиск, слабое (например, предложение заполнить пробелы на временной оси гипотезами о словах) и сильное (например, совсем отвергнуть какую-либо гипотезу) вмешательство, необходимость использовать частичную информацию (частичные грамматические конструкции), способность динамически менять свои критерии достоверности - общие проблемы многих больших систем,основанных на информационном управлении.


Страница: