Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

распознанного слова - 99,3%.

14

В [2b] сообщается, что фирма Dialog Systems (США) подготовила к коммерческому производству первую неадаптивную систему распознавания слов, построенную на бсль'"их интегральных схемах. Особенностью этой системы является метод сравнения, основанный на анализе большого статистического материала. Эталонные реализации формировались после изучения 500 образцов произнесения мужчинами и женщинами каждого словаря: статистика собиралась по всей территории США. Из каждого слова берется 12 выборок;на каждом отчете измеряется общая амплитуда сигнала и вычисляется спектр сигнала в диапазоне телефонного канала(300 - 3400 Гц) в 31 точке. Таким образом, каидому слову соответствует 384 числа. Обучающая выборка включала обработанные реализации 500 слов. Неизвестное слово, поступающее на вход системы, подвергается такой же обработке и сравнивается с эталонами. Система использует речевой ответ. Базовый словарь состоит из 12, слов - 10 цифр и слов "да" и "нет". Система позволяет добавлять специализированные словари. Например, для банковских работников предусмотрено включение 30 дополнительных слов, включая такие, как "баланс","итог", "взнос". В [52] сообщается, что эта фирма разработала систему продажи билетов на самодеты, откликающуюся на голос любого диктора. Однако для нее возможны и другие применения. С ее помощью служащий, находящийся в другом городе, легко может вызвать любого абонента внутренней сети. Для этого он набирает номер коммутатора фирмы, называет свой идентификационный номер и телефонный номер, который он хочет вызвать. Система обрабатывает устные команды с точностью, превышающей 95№.

В [102, 147, 146, 150, I6b - 168] описана экспериментальная система автоматического распознавания 127 слов, произносимых несколькими дикторами. Проблема особенностей произношения решается таким образом, что каждый диктор имеет набор своих эталонов, поэтому в строгом смысле слова систему Bell Laboratories нельзя считать неадаптивной. Словарь был выбран с учетом того, чтобы произвольный пользователь мог заказывать по телефону билеты на авиарейсы, используя ЭВМ с речевым вводом. Отмечается, что использование синтаксиса языка понижает ошибки распознавания слов с 11,7 до 0,4%/

В [170,172] рассматривается распознавание словаря, включающего название английских букв, цифры и три служебных слова редактирования ("стоп", "ошибк^.", "повторяю"). Словарь позволяет произносить произвольные слова, в частности фамилии,по буквам. При испытаниях системы, в которых участвовали шесть мужчин и четыре женщины, при средней точности распознавания слов словаря в

15

60% средняя точность распознавания слов, произносимых по буквам (50 случайных фамилий сотрудников Bell Laboratories ), составила 96%. Каждый диктор, как и в [25] , имел собственные эталоны. В [166,167] используется около 12 эталонов на каждое слово словаря, причем каждый эталон характеризует особенности некоторой группы дикторов. Эталоны получаются методом кластерного анализа;

при этом используется 100 обучающих реализации на каждое слово. Точность распознавания 10 цифр приближается к точности их распознавания в адаптивных системах и колеблется (для различных дикторов) от 97,5 до 100%.

В [125] предлагается для повышения точности распознавания слов ввести дополнительный уровень распознавания, который автоматически определяет пол диктора и уже дальнейшее распознавание производит с учетом этого. Введение предварительного автоматического распознавания пола диктора повысило точность распознавания цифр.

В СССР проблеме построения неадаптивных систем автоматического распознавания речи также уделяется большое внимание [10,13,33, 38, 57, 66, 76, 77, 87, йб] . Как правило, системы работают с проблемно-ориентированными языками, словарный запас которых составляет несколько десятков словоформ [40] . В [1.0,12] описана опытная эксплуатация одной из таких систем. Сейчас существуют некоторые промежуточные экспериментальные системы распознавания, работающие со множеством дикторов, часть из которых можно отнести к адаптивным, например систему МВТУ [l] .которая по своей идеологии и принципам близка к типичным настраивающимся на диктора системам - лишь память ЭВМ ограничивает число дикторов, каждый из которых имеет свою систему эталонов. Рассматриваемые же ниже системы обладают рядом особенностей, характеризующих именно неадаптивные системы: попытка пользоваться универсальными признаками фонем, использование синтаксиса и семантики рабочего языка, верификация диктора до того, как система обратилась к его эталонам, и т.д. В этом смысле к неадаптивным системам распознавания речи можно отнести две интересные системы распознавания фраз, произносимых с паузами между словами. Эти систрмы были созданы в Институте систем управления АН ГрузССР.

Одна из этих систем [ 77] была предназначена для оперативного управления объектами путем распознавания фраз-команд, произносимых предварительно верифицированными дикторами. Ьможество фраз, составленных из 134 слов,включало 75 типовых синтаксических конструкций. Каждая фраза содержала не более 14 слов и произносилась полным стилем с паузами между словами. Параметрами

16

первичного описания были: энергия с 6 полосовых фчльтров, дедек-торы плотности нулевых пересечений сигнала, общая энергия сигнала и признак звонкости - гдухости. (Параметры измерялись и вводились в память ЭВМ каждые 20 мс.) На первом этапе анализа определялась (по динамике параметров первичного описания) макро-временная структура фразы и слов. Полученная грубая структура кодировалась и вместе с данными о положении локальных максимумов скорости изменения значений параметров первичного описания служила основой для получения посегментного (кваэифонетичес-кого) описания слов во фразе. В результате каждое слово фразы представлялось в виде матрицы чисел Ц3'17! > W l•/•л-номера соответственно признака, сегмента в слове и слова во фразе.

Процесс распознавания слов начинался с выбора эталонов -претендентов, идентичных входной реализации, и кодов макровре-ненной структуры и отличных от нее числом квазифонетичвских сегментов на величину не более заданного порога. Наиболее вероятные пары гипотез о слове принимались методом динамического программирования. При этом учитывались лексические ограничения на место слова во фразе. Далее блок семантико-синтаксического анализа принимал решение об истинной последовательности слов во фразе. При работе с шестью операторами и обучении системы на каждом из них надежность распознавания слов составила 8836,а надежность распознавания фраз за счет блока лингвистического анализа - 95%. Точность верификации диктора по произвольной фразе - 96%. Система устойчива к внешним шумам до 65 дБ.

Другая система, разработанная в Институте систем управления АН ГрузССР,способна работать при более высоком урочне шумов (до 100 дБ и выше) СЗб]. Основной особенностью этой системы распознавания фраз, произносимых с паузами между словами, было наличие комплекса помехозащищенных датчиков, который обеспечил приемлемое отношение сигнал/шум на входе системы распознавания. В качестве приемника речевой информации применялся ларингофон ЛЭМ-3, а также дополнительные помехозащитные признаки устной речи, в качестве которых использовались артикуляционные характеристики ре-чеобразования. Бесконтактные датчики позволяли выделять:


Страница: