Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

В [l87] описана система распознавания слитно произносимых цифр, разработанная фирмой Bell laboratories. Систэма состоит из двух взаимодействующих блоков. Первый осуществляет пословную сегментацию всего высказывания на отдельные цифры, а второй производит распознавание этих цифр по результатам сегментации. При распознавании использовались признаки сеп/^нтов речевого сигнала:

р - параметр, логарифм анергии, кооффициенты линейного предсказания и ошибка предсказания .и коэффициента автокорреляции.Для пословной сегментации слитных словосочетаний учитывалось то обстоятельство, что для этого конкретного словаря (английские названия цифр) шумные участки и паузы (глухие смычки) могли находиться только в начале или конце слов. &ти участки и являлись в основном опорными границами между словами. Точность пословной сегментации составляла 99% (при произнесении словосочетаний как в тихой комнате, так и в условиях машинного зала). Точность распознавания словосочетаний (названий семизначных телефонных номеров) составила 91% для 10 дикторов (5 мужчин и 5 женщин), произносивших фразы в тихой комнате, и QT% для тех же дикторов, находившихся а машинной зале. В [149] отмечается, что получены обнадеживающие результаты по распознаванию слитной речи, использующей словарь в 1й*7 слов, аналогичный словарю [ 147,148] . Дальнейшее развитие этих систем описано в [156,1693.

26

Система Hearsay-П создавалась на базе разработанных ранее систем распознавания слитной речи Dragon и Hearsay-I.Аналогично Hearsay-I главным принципом Hearsay-д было выдвижение гипотезы (о звуке, слове, фразе) и ее подтверждение с помощью всех возможных источников знаний (ИЗ) о речевом сигнале .

Описания высказываний, которые должны анализироваться в этой системе понимания речи, имеют унифицированную трехмерную структуру, причем размерностями являются: уровни представления (акустический, фонетический, слоговой, лексический, синтаксический и семантический), время и вероятностные альтернативы (на каждом уровне для каждого временного отрезка). Ьта структура содержится в памяти системы как единая информационная база (ВИБ),подвергающаяся исследованиям и модификациям с помощью различных программ, реализующих ввод в систему необходимых источников знаний.

Работа комплекса программы на единой информационной базе (которую называют "классной доской") и есть интерпретация слитно произнесенного высказывания на различных лингвистических уровнях - от фонетического до семантического.

Общая информационная память, построенная как единая многоуровневая информационная структура с внутренними связями, представлена в системе Hearsay-П в виде графа. Основная единица этой информационной структуры - узел графа, являющийся гипотезой о существовании в высказывании некоего частичного элемента. Структурные отношения между узлами графа (гипотезами) представляются дугами графа, обозначающего связи. Существует два наиболее важных типа структурных отношений - "последовательность элементов" и "выбор элементов".

Последовательность - это структурное отношение, означающее, что гипотеза верхнего уровня поддерживается "юследовательныы рядом гипотез на нижнем уровне (например, слово представляется последовательностью непересекающихся во время звуков речи). Выбор - отношение, определяющее гипотезой альтернативную поддержку от двух и более гипотез , причем каждая от них существенно перекрывает тот же временной отрезок (т.е., например, гипотезой, допускающей на данном временном интервале несколько различных слов примерно одинаковой фонетической структуры).

Распространение идеи "выдвижение гипотезы - ее подтверждение" на все уровни знаний о речевом сигнале требует организации системы передачи информации между уровнями. В связи б двумя видами, структурных отношений между узлами графа можно рассматривать и два типа гипотез - горизонтальные и вертикальные, подт-

27

верхдаемые соответствующими источниками знаний. Гипотеза считается горизонтальной, если источник знаний использует контекстуальную информацию на данном уровне для подтверждения гипотезы того хе уровня. Вертикальная гипотеза определяется как гипотеза,требующая для своего подтверждения информации, получаемой источниками знаний на других уровнях.

Основная функция источников знаний - устранить ошибки, возникающие при обработке слитной речи. При этом источники знаний должны вовремя добавить какую-то новую информацию, внести что-то полезное для более надежного распознавания. Источники знаний должны уметь распределять эти знания через механизм выработки гипотез, оценивать цобавку от других источников знаний,т.е. подтверждать иди отвергать гипотезы, сделанные другими источниками знаний. Источники знаний необходимо создавать таким образом, чтобы их можно было приспособить к новым участкам анализа высказывания и вообще к новым задачам автоматического понимания слитной речи.

Для нормальной работы СПР Нвагаау-11 необходимо реализовать:

1) достаточно общую, структурно-полную информационную базу, анализируя которую, источники знаний могут вводить новые гипотезы,' проверять и изменять гипотезы, размещенные в этой базе другими источниками знаний;

2) средства для описания разнообразных источников знаний и обеспечения их внутренней обрабатывающей способности;

3) возможность управлять действиями источников знаний ин-фовмационко-направленным способом (необходим способ, с помощью которого определяется ряд предварительных условий, запускающих необходимый источник знаний);.

4) признаки, по которым обнаруживается удовлетворение этих условий и локализуется часть информационной базы, в которой заинтересованы соответствующие источники знаний.

Для реализации п.4 необходимы два механизма: мониторный руководящий механизм, обнаруживающий изменение общей информационной базы и оценивающий природу этих изменений, и ассоциативный механизм повторных испытаний и восстановления частей информационной базы, когда это необходимо. Таковы самые общие сведения о Hearsay-П. Переедем к более детальному рассмотрению этой системы.

Параметрическое представление высказывания в Неагвау-П сводится к использованию двухступенчатой системы признаков. Несмотря на то, что в последнее время большое внимание уделяется

28

точным методам нахождения параметров речеобраэующего тракта (в частности, с помощью линейного предсказания), неапау-11 используется лишь на втором этапе. Но прежде чем использовать коэффициенты линейного предсказания, авторы Неагвау-П получают гораздо более простые и дешевые обобщенные параметры,которые назвали параметрами zapbash (Zero Orosetng and PeaHs at Differenced and Smooth Vaweform). Эти параметры обеспечивают грубую сегментацию речевого потока по способу образования звуков, т.е. обеспечивают сегментацию и маркировку I уровня. После локализации в высказывании фонетических элементов применяют сегментацию и маркировку П уровня, основанную на использовании коэффициентов линейного предсказания, обеспечивающего более точную идентификацию сегментов.


Страница: