Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

с дефектами органов слуха и речеобразования, очистки и анализа затупленной речи, создания систем узкополосной помехоустойчивой связи, а также ряд других задач. Рассмотрение всех этих проблем не входило в планы авторов, которые ограничиваются здесь простым их перечислением.

В данной главе кратко рассматриваются основные публикации по проблемам автоматического распознавания и синтеза речи, появившиеся в I976-I98I гг. Сведения о более ранних работах в этой области можно получить из [58,79,8б].

В СЮ9] приводятся основные лаборатории США, Великобритании, Франции и Западной Германии, тематика которых связана с автоматическим распознаванием и синтезом речи. В [127] сообщается, что проблема построения машин, способных воспринимать речь человека (желательно с использованием пра' л естественного языка), остается главным направлением речевых исследований, одной из ключевых проблем кибернетики. В [144] отмечается возрастающий интерес к этой проблеме, связанный с увеличением спроса на малые устройства распознавания слов и появлением новых компаний, активно участвующих в создании промышленных систем автоматического распознавания речи на новой технологической базе.

В нашей стране наблюдается широкий интерес к проблеме исследования речевых сигналов. Регулярно проводятся всесоюзные школы-семинары по проблеме автоматического распознавания слуховых образов (APGO). В каждой союзной республике существуют лаборатории или группы, решающие эти задачи.

Стало традиционным классифицировать системы автоматического распознавания речи на адаптивные, работающие с подстройкой под диктора и словарь, и неадаптивные, обеспечивающие работу с произвольным диктором-носителем нормы произношения данного языка. К практическим системам первого типа относятся vip- юо, WRS и ИКАР, СРД-1, МАРС, к неадаптивным - экспериментальные системы лаборатории Bell, ВЦ и ИППИ АН СССР, устройство фирмы Dialog Systems . Следует отметить, что системы автоматического распознавания речи пока не получили широкого распространения, хотя и выпускаются с 1973 г. серийно.

Более доведенными до уровня коммерческих образцов являются системы автоматического речевого ответа, т.е. системы, основанные на автоматическом синтезе речи. Промышленность США и Японии выпускает большими партиями синтезаторы речи, ориэнтированные на самое разнообразное применение, - от детских игрушек,оснащенных голосовым выводом, до мощных информационных систем, отвечающих голосом по речевому запросу пользователя. В основе современных

б

коммерческих систем речевого ответа лежат три основных способа синтеза - непосредственное кодирование речевой волны (дискретизация и сжатие), формантный синтез и синтез, основанный на линейном предсказании [5]. (Подробное описание достижений науки и промышленности в области автоматического синтеза речи дано

в § 1.4).

В пятой главе подробно рассматриваются особенности разработанной авторами экспериментальной запросной системы речевого ввода, работающей с проблемно-ориентированным языком, словарный запас которого составляет 120 слов. Система базируется на аппаратурно-программном методе распознавания, использующем информативные признаки речевых отрезков ^23,13,9?].

§ I.<i. Современные тенденции построения практических систем распознавания речи

В середине 70~х гг. получили распространение системы распознавания речи, предназначенные для промышленного использования. Важнейшие требования к таким системам - высокая точность и реальное время распознавания высказывания. Постепенно стал накапливаться опыт эксплуатации подобных систем, который определил их дальнейшее развитие. Первые практические системы автоматического речевого ввода информации обладали рядом положительных свойств, необходимых для пользователей. Мартин [&8] отмечает, что к таким свойствам можно отнести мобильность и возможность совмещения работ оператора, гибкость словаря, 100% точность распознавания (при использовании обратной связи), стабильность эталонных данных и уверенность оператора, контактирующего с системой, обладающей высокой точностью распознавания. Главными недостатками первых систем можно считать длительную подстройку под диктора и словарь, малый объем словаря, отсутствие помехозащищенности от слов, не входящих в рабочий словарь, проблемы фонового шума и шумов дыхания, высокую стоимость и т.д.

Первым широко внедренным устройством систем автоматического речевого ввода данных можно считать vip-ioo, подробно описанное в [58,134] .

В [13б] отмечается использование VXP-100 в конфигурации Threshold -500, которая дает возможность вводить информацию голосом в ЭВМ одновременно трем операторам. Указывается,что средняя точность распознавания слов в этих системах колеблется от 96,5 (для словаря из 35 слов и высокого уровня шумов) до 99,5%

(для словаря из 15 слов и тихого помещения). В [136] рассматривается использование vip - 100 для речевого ввода информации в ЭВМ станков с программным управлением. Отмечается, что для этих целей разработаны три специальные систейн: vw - 50, vno- 100 и virc - 200 с использованием соответственно 31 слова и слитного словосочетания, 4Ь и 65 слов.

Системы VHC -200 применяются для управления четырехшиин-дельными сверлильными станками и лазерами, iопользующимися для обработки полупроводников и сверхтвердых материалов, а также для управления токарными станками. Кроме того, эта система применяется для взаимодействуя с системой искусственного интеллекта и управления голосом.

Данная система используется для технической диагностики компрессоров холодильных установок и при распределении посылок.про-ходящих по конвейеру [П9].

й[П7] описывается использование одной из систем фирмы Threshold Technology для автоматического ввода голосом по телефону гидрографических данных исследования морских акваторий.

Еще одной американской промышленной системой автоматического распознавания изолированных слов является v/RS [l40] . Система предназначена для практического использования в армии и обеспечивает прямую двустороннюю связь между персоналом на передней линии фронта и армейскими информационными системами, использующими автоматическое распознавание слов, идентификацию диктора и его верификацию (подтверждение, тот ли человек разговаривает с системой).

Мини-ЭВМ этой армейской системы полностью обеспечивает автоматизированную обработку сигналов в реальном времени, трансляцию (т.е. автоматическое распознавание) сообщения и синтезированный речевой ответ на три сети связи одновременно для любых трех из 64 пользователей. Рабочий словарь системы 250 слов. Полевой оператор-разведчик оснащ'ен переносным блоком записи донесений для точной записи тактических данных и возможного ввода их по радио или телефонным линиям в армейскую тактическую информационную систему. Для удаленного оператора используются передатчики с частотной модуляцией. Система распознавания слов таз, воспринимая дискретные речевые сообщения (фразы, произносимые в жестком формате пословно), "подсказывает" оператору на каждом шаге, какого рода информацию ждет она от него далее, предварительно подтвердив правильную запись предыцущего донесения.


Страница: