Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

II

Из-за использования относительно медленной машины и чисто программной реализации алгоритмов анализа сигнала время обработки около I мин на слово, время принятия решения ~ W/8 с, где И - объем словаря.

В более поздней работе этого же коллектива рассматриваются системы признаков, основанные на модеси линейного предсказания С 17] и психоакустическом эффекте маскировки более схабых составляющих речевого сигнала более сильными.При использовании данного подхода точность распознавания изолированных слов для одного диктора составила при лексиконе из 100 слов - 97%,а при лексиконе из 300 первых слов русского частотного словаря - 94^.

В Институте кибернетики АН УССР в 1977 г. разработана адаптивная система распознавания слов, работающая в реальном масштабе времени [1б] . Система создана на основе ЭВМ БЭСМ-6, но может быть реализована на других ЭВМ или в специализированном устройстве на микропроцессорах. В процессе предварительной обработки речевого сигнала вычисляется последовательность 48-разрядных двоичных кодов, каждый из которых определяет знак производной по частоте амплитудного спектра речи, вычисленных на участках в 15 мс. Обработка введенного речевого сигнала длительностью I с происходит за 0,3 с, время распознавания одного слова для словаря из 100 слов - не более I с. Точность распознавания словаря из 500 слов - 98%. Методика принятия решения в системе более подробно рассмотрена в С20].

В [21] описывается разработанная в ИК АН УССР система распознавания речи, настроенная на голос нескольких дикторов и обеспечивающая надежность распознавания изолированных слов около 98^ для словаря из 500 слов.

Интересная адаптивная система распознавания изолированных слов, использующая параметры клиппироваяного речевого сигнала, разработана Н.П.Бусленко, В.В. Деевым и Г.Д.Фроловым [8].В этой системе для формирования эталонов и автоматического распознавания предложен оригинальный математический подход к анализу последовательности чисел, соответствующей интервалам между нулевыми перечислениями сигнала. Обобщенные эталоны формируются после нескольких for 2 до Ь) произнесений слова. При распознавании происходит сравнение поступившего на вход слова с этими эталонами. В системе реализован речевой ответ, также основанный на формировании клиппированного речевого сигнала. Ццеи,рассмотренные в [в] , нашли свое дальнейшее развитие в системе, реализованной на мини-ЭВМ.

12

В ряде кибернетических систем массового пользования целесообразно использовать автоматический речевой ввод без предварительной настройки на голос оператора. В таких системах распознавание должно базироваться на универсальных фонологических правилах, а в дальнейшем - на использовании синтаксиса и семантики естественных языков. Другой путь построения неадаптивных систем распознавания речи - сбор эталонных реализации от большого (до 500) числа дикторов, кластеризация эталонов и использование того факта, что каждый новый диктор произносит слова так, как этр делал один из тех дикторов, который участвовал в обучении системы распознавания. В настоящее время не достигнуто высокой точности распознавания слов в неадаптивных системах (кроме системы Dialog Systems , где весьма небольшой словарь и используются эталоны, полученные от 500 дикторов). Однако исследования, проведенные в этой области, а также феномен человека, воспринимающего слитную речь произвольного диктора без предварительной настройки на его голос, доказывают, что технические средства,направленные на распознавание речи любого пользователя, несомненно, будут созданы.

Первой системой автоматического распознавания речи, выпускаемой нашей промышленностью, стала адаптивная микропроцессорная система распознавания изолированных слов,разработанная в НШЮчетмаше.Система содержит блок аналоговой обработки сигнала - предпроцессор (он включает микрофонный усилитель, 16-канальный спектроанализа-тор с рабочей полосой до Ь кГц, индикаторы уровня основного тона и огибающей, блоки клиппирования, наличия устной команды, вторичной обработки и управления), микропроцессор К580ИК80, специализированную подсистему для вычисления меры сходства между входной и эталонной реализациями слов, оперативное запоминающее устройство, интерфейсный блок и пульт инженера-оператора .Поток информации о речевом сигнаде (1250 байт в секунду) поступает с процессора для последующей обработки в микроЭВМ, которая одновременно управляет отдельными узламг и блоками всэй системы. Следует отметить, что система [72J по своей структуре и возможностям занимает промежуточное положение между коммерческими системами V IP-100 (США) и dp фирмы яёс (Япония).От VIP-IOO наши разработчики позаимствовали бинарное представление информации о слове на уровне вторичной обработки сигнала, а от системы нес - использование динамического программирования при нелинейном сравнении входной и эталонной реализации. Такой подход позволил производить распознавание в реальном масштабе времени и с высокой надежностью, используя отечественную элементную

13

базу. Для обучения новому словарю требуется однократное произнесение каждого слова. Надежность распознавания для группы из четырех дикторов, каждый из которых работал со своим словарем,превысила 96%; время распознавания для словаря из 200 слов - близкое к реальному (не превышающее 1с).

В [б33 описано автономное адаптивное устройство распознавания ограниченного набора слов, разработанное во Всесоюзном сельскохозяйственном институте заочного образования. Устройство выполнено на базе микросхем 155-й серии и состоит из 16 плат размером 140 х 150 мм. На вход устройства с аппаратуры первичного анализа подаются 16 бинарных признаков, один аналоговый, представленный четырехразряд очным двоичным кодом, и признак конца речевого сигнала. Память устройства вмещает до 256 отсчетов эталонов сигнала. Речевая информация поступает для последующей обработки с частотой 100 Гц, но в дальнейшем сжимается (в среднем до 16 отсчетов на слово) так, что в память можно записать лишь 16 эталонов. Нелинейное сравнение с эталоном осуществляется методом динамического программирования. Устройство [вз] может работать в двух режимах - обучения и распознавания.Точность распознавания (для одного диктора) зависит от словаря, объем которого не превышает 16 слов, и колеблется в пределах 96-99%.

Система [l] , разработанная в МВТУ им. Н.Э.Баумана и ориентированная на речевое управление движущимися объектами, была испытана десятью дикторами на словарях иг 32 слов и слитных словосочетаний на русском, английском и немецком языках ( каждый диктор имел свои эталоны).На материале 3200 реализации было получено 9Ё% правильных ответов, 1% отказов от распознавания и 1% ошибок. Система позволяла работать в трех режимах - обучения, распознавания и управления. В режиме речевого управления словарь включал всего 14 слов; надежность распознавания команд управления составила при этом 99,5№.

Интересная адаптивная система распознавания и синтеза речи была разработана на устройстве аналогового типа и ЭВМ ЕС-1030 М.Г.Демковым [35] . Словарь системы, работающей в близком к реальному времени, составлял 300 слов и словосочетаний. В результате аппаратной и программной обработки три обучающие реализации каждого слова преобразовались в эталонную последовательность длиной в 10 - 20 символов. Эксперименты по определению надежности системы проводились в условиях акустических шумов 75 -60 дБ на голосе одного оператора. При однократном произнесении словаря в объеме 300 слов точность распознавания составляла 97,2%,при одном повторении - 98,6%, при двух повторениях ошибочно


Страница: