Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

Система содержит несколько эвристических процедур для улучшения ее характеристик: выделение подсетей и сжатие их для уменьшения общего объема сети, автоматическое составление описания коартикуляционных явлений на стыках слов и т.д. Время распознавания системы в период испытания составляло 2D с на 1 с речи (есть сведения, что в настоящее время оно снижено до Зс на I с речи).

Синтаксические значения в hahpy однозначно определяются независимым от контекста рядом выработанных правил, формализующих проолемно-ориентированный язык. Лексические знания представлены словарем, который содержит символическую фонемную транскрипцию всех альтернативных произнесений. Правила стыков, как и в системах IBM, учитывают фонетические явления при соединении слов в слитно произносимое словосочетание. В качестве первичных параметров используются коэффициенты автокорреляции и линейного предсказания. У системе Нлару в процессе работы осуществляется адаптивная подстройка под диктора с помощью десяти обобщенных эталонов, характеризующих усредненный вокальный тракт группы дикторов. На базе harp? был разработан голосовой ввод в картографическую систему ( vigs), позволяющий дублировать клавиатуру при вводе картографической информации [l3l].B настоящее время система harpy переводится на мультимикропроцессорную базу [36].

перейдем к краткому описанию систем "понимания" речи. Их разработка началась после появления отчета [161] , в котором известные американские специалисты в области искусственного интеллекта, распознавания речи, системного программирования, математической лингвистики изложили взгляды на проблему построения систем, воспринимающих слитную речь, произносимую на естественном языке. Основные положения отчета [161] легли в основу пятилетней программы arpa.

Достаточно подробные обзоры по начальному этапу работ над системами понимания речи содержатся в [79,85] . Поэтому здесь рассмотрим лишь итоги проекта arpa в области построения

35

конкретных СПР. Можно считать законченными (в большей или меньшей степени) системы понимания речи трех американских организаций -ОЫП, 3RI и ввн [179, 162, 187, 189].

Основные усилия c:,?J были направлены на построение системы понимания речи Неагаау-1 "^основанной на принципе: "Выдвижение гипотезы и ее подтверждение различными независимыми источниками знаний о языке". Отдельные элементы этой системы подробно освещены в [79, 85, 8b, I2U, 179].

Система Псагвву-п была испытана на IOU предложениях, составленных из IUH словоформ, аналогичных словарю системы harpy, описанной ранее (система HARPY имела грамматику с гораздо более простым синтаксисом). Ошибки при распознавании фраз в Неагаау-п составляди 16%, а время распознавания превышало время распознавания системы harfx в 2 - 33 раз.

В фирме вен на I этапе разрабатывалась система понимания речи Speeohlis, в качестве языка которой использовался упрощенный вариант языка ИПС lunar; система Ь^-паг давала возможность анализировать образцы лунных пород[?9,Уб1В дальнейшем была усовершенствована этой же фирмой новая система понимания речи нули (Hear what I mean ) С учетом недостатков Speechlia.

.Язык системь. hwim относится ^ области бухгалтерских расчетов. Вместо раздельных синтаксического и семантического блоков системы Speechlis , нздш имеет единый, семантико-синтакси-ческий модуль, реализующий так называемый блок "прагматической грамматики". Эта грамматика представлена здесь в виде сети и основывается не на таких синтаксических категориях, как подлежащее, сказуемое, определение,а на семантических - "поездка","ли ад", "расстояние". Словарь itvim включает 1100 словоформ [185, I8yJ

Прагматическая грамматика, хотя и жестко связана с проблемно-ориентированным языком, очень удобна длк обеспеченля простых принципов использования синтаксических, семантических и прагматических ограничений языка, которые необходимо делать для повышения точности интерпретации высказывания. По-видимому,на перво» этапе построения автоматических систем понимания речи целесообразно так и поступать, т.е. разделить задачи использования словарями (например, при автоматическом машинном переводе текстов) и использованием синтаксиса и семантики для построения СПР. dc ьтором случае задача несколько иная - и более сложная, и боле( простая. С одной стороны, нет уверенности в правильном распоэ навании всех составляющих высказывания; неясно, существуют я'

36

вообще пробелы (паузы, междометия и т.д.) на временной оси,где искать ключевые слова и пр. Но с другой стороны, мы ограничиваемся достаточно простым проблемно-ориентированным языком с относительно небольшим словарем и упрощенными грамматическими конструкциями.

В системе нто,1 акустическая информация используется блоками акустико-фонетического распознавания ( apr) и периметри-чеокой верификации слов ( ?та ). Результатом работы APR является фонетическая транскрипция "снизу-вверх".

Блок pvw осуществляет верификацию "сверху-вниз", води словесная гипотеза поддерживается акустическим уровнем. Основной программный модуль верификатора - программа синтеза слов по правилам.

Отдичие системы h.'.'im от Speechlia заключается также и в характере акустико-фонетического распознавания - в наличии у системы HWIM блока селективной модификации ( зМ), дающего возможность реализовать двухступенчатую сегментацию и маркировку. Программа SM на выходе порождает решетку сегментов, представляющую возможные альтернативы фонам. Каждый из сегментов первоначально маркируется одной меткой. Затем в зависимости от этой предварительной классификации вычисляются некоторые величины аку-отичаских параметров и модифицируются оценки данных фонем. Функции пяотности вероятностей, используемые блоком сеяективной модификации sM, поступают в бяок агер ( Acoustic Rionetic Experiments Facility ), который содержит модули, позволяющие моделировать звуки речи и проверять параметрические многомерные распределения вероятностей для ряда фонетических классов, что дает возможность полнее использовать многие независимые параметры одновременно.

Программа ан? выделяет не только грубые классы фонем, но и производит идентификацию внутри классов. Характеристики фонам в слитной речи сильно зависят от контекста, т.е. наблюдается наличие нескольких аллофонов, для которых оценки сильно перекрываются. Поэтому в hv/im для каждого класса фонем устанавливается ряд фонетических признаков и используется таблица, в которой показано ранжирование этих признаков для аллофонов каждого класса.

После сегментации высказывания и построения сегментной решетки, перекрывающей высказывайте отрезками, соответствующими фонемам, блок управления вызывает процедуру лексического поиска для сканирования вдоль всей сегментной решетки и поиска Ib наиболее подходящих слов. Из-за большой неопределенности на стыках

37

слов эту процедуру проделывают слева направо и справа налево. Сяова, отобранные процедурой лексического поиска, образуют словесную решетку, где они используются при последующей обработке. Блок управления, выбрав из УО отобранных при сканировании слов одно с наибольшим весом (получившее наибольшую оценку).пытается, основываясь на прагматической грамматике, строить гипотезу о большем отрезке сигнала. Если расширение гипотезы не получается, блок управления берет следующее (по вес^) слово словесной решетки; если это слово подходит, то расширяют двухсловную гипотезу, если же нет, то подбирают новое ключевое слово.так продолжают до тех пор, пока не будет построена гипотеза обо всем высказывании.


Страница: