НОВОСТИ БИБЛИОТЕКА КАРТА САЙТА ССЫЛКИ О ПРОЕКТЕ

Моделирование слуха

Бионика и слух

Исключительное значение для роботостроения имеет совершенствование технических приборов, воспринимающих звуковые сигналы. Звук быстро позволяет передавать командные и управляющие сигналы. Разработка новых систем слуха, пригодных для роботов, также основывается на бионических исследованиях.

Способность человеческого мозга разбираться с помощью слухового аппарата в хаосе звуков является одним из его самых чудесных свойств. В раскрытии этого свойства, его моделировании кровно заинтересована бионика, пытающаяся внести свой вклад в решение одной из важнейших современных проблем "человек - машина".

"Наивысшим и совершеннейшим человеческим приспособлением" назвал звуковую речь человека выдающийся русский физиолог И. П. Павлов. Физическая природа звуковой речи хранит в себе множество тайн. Как образуются звуки в голосовом аппарате человека, как они воспринимаются слухом и от чего зависит характер звука - вот проблема, на которой акцентированы еще по сей день интересы ученых, работающих в самых разнообразных областях науки. Чтобы машины могли безошибочно выделять какой-то один образ из множества других сходных, нужно точное знание его признаков. Но как выбрать такие признаки? Над решением этой задачи во всем мире работают физиологи и лингвисты, акустики и невропатологи, специалисты по бионике и логопеды, психологи и инженеры, математики и конструкторы.

К сожалению, если фотоэлемент можно назвать грубой моделью органа зрения, то микрофон меньше напоминает органы слуха.

Ученые-бионики, преодолевая трудности, пытаются разгадать секреты слуха человека. К таким секретам относится, например, способность выделять нужный голос среди шума и десятков других голосов. Задача сложная, но нельзя отказываться от нее только потому, что она трудна. Знание природы слухового восприятия у животных может оказаться полезным для решения многих проблем роботостроения. Например, подобно тому, как лягушка получает лишь "избранную" информацию, так и кузнечик, вернее его мозг, получает из всего колоссального потока звуков лишь те, которые имеют для него биологическое значение. Подобная избирательность может оказаться очень полезной для роботов.

Речь состоит из слогов, слов, фраз и т. д. Наименьшим элементом речи является звук (фонема). С физической точки зрения звуки речи различаются и частотой, и интенсивностью, и продолжительностью. В речи нет четких границ между звуками. Одни специалисты пытаются распознавать речь по фонемам, другие - считают, что для этого следует использовать форманты частоты, присущие звучанию каждой буквы, произносимой человеком. Примером удачного решения задачи является фонетическая пишущая машинка, созданная учеными Г. Олсоном и Г. Беларом.

Схему устройства можно рассматривать как сложный аналог слухового аппарата, части мозга, нервной системы и нервно-мышечного аппарата человека, печатающего под диктовку. Бионическая схема человека, печатающего под диктовку, и схема фонетической пишущей машинки показаны на рис. 54. Чтобы понять принцип работы устройства, проследим, как перерабатывается звуковая информация по пути ее следования.

Звуковая энергия улавливается наружным ухом человека, передается по слуховому проходу и воздействует на барабанную перепонку среднего уха. Механическое движение перепонки передается жидкости, заполняющей улитку (внутреннее ухо), при помощи слуховых косточек, которые подобно рычажкам, перемещаются нелинейно. При этом происходит "компрессия" (сжатие) сигнала, т. е. большие амплитуды уменьшаются сильнее, чем малые, причем уменьшение амплитуды пропорционально ее величине.

Рис. 54. Структурная схема человека, печатающего под диктовку, и фонетической пишущей машинки

На рис. 54 показано схематическое изображение "развернутой" улитки и показаны частоты, воспринимаемые различными ее участками. Здесь осуществляется первичный анализ информации. Дальнейший ее анализ происходит в мозгу, куда сигналы поступают по слуховому нерву. На основе этого анализа мозг вырабатывает команды, посылаемые мышцам руки, нажимающей на соответствующие клавиши пишущей машинки.

В машине, распознающей речь, голос оператора воспринимается микрофоном и преобразуется в электрические колебания соответствующих частот. Желательно, чтобы результаты распознавания не зависели от громкости произносимых слов и расстояния от микрофона. Для этого в машине применен звуковой компрессор, представляющий собой специальный нелинейный усилитель, который хорошо имитирует работу среднего уха.

После усиления и компрессии речевой сигнал поступает на анализатор частот - систему из восьми полосовых фильтров, охватывающих диапазон 250-10 000 Гц, и систему детекторов сравнения амплитуд. Последняя собрана так, что реле, соответствующее данному каналу, включается лишь тогда, когда уровень в нем больше среднего уровня в двух соседних каналах. Выходной сигнал частотного анализатора поступает в виде двоичного восьмиразрядного кода в корректируемую по времени спектральную память. В ней запоминаются состояния восьмиканальных реле в течение пяти последовательных интервалов времени. Матрица 5x8, соответствующая произнесенному слогу или слову, считывается устройством распознавания комбинации сигналов лишь тогда, когда вся матрица будет полностью образована.

Речь опознается по группе фонем, составляющих слог, а не по отдельным фонемам (так как распознавание многих фонем вне контекста очень трудно). В слоговой памяти хранятся комбинации сигналов, соответствующие различным произношениям одного и того же слога или слова. Осуществляемое устройством распознавание слога представляет собой определенный вид процесса сравнения с имеющимися в слоговой памяти эталонными матрицами звукосочетаний.

Распознавание слога, если оно произведено, вызывает срабатывание того реле из памяти написания, которое связано с написанием данного слога. В памяти написания (орфографической памяти) имеются типовые комбинации сочетания букв, представляющих 40 фонем, для заданных 100 слогов. Реле соединено с шинами очередности следования букв и с шинами кода букв в блоке управления печатанием, который, в свою очередь, управляет работой буквенных приводов. Наконец, происходит печатание выбранных букв.

Таким образом, слово печатается в соответствии с заранее определенным написанием, которое по необходимости должно быть одинаковым для одинаково звучащих слов. Именно поэтому устройство было названо "фонетической пишущей машинкой".

По данным Г. Олсона и Г. Белара, для того чтобы в английской речи понять 98% произносимых слов и фраз, достаточно иметь память приблизительно на 2000 слогов. При этом орфография оказывается правильной примерно в 85% случаев. По расчетам М. А. Сапожкова, для русской речи нет необходимости в таком объеме памяти, так как фонетическая и печатная формы русских слов различаются в значительно меньшей степени, чем английских (требуется память на 300 звукосочетаний типа СГ и ГС и около 100 звукосочетаний со сложными консонансами).

Несколько моделей машинок, пишущих с голоса, сконструировал научный сотрудник Женевского университета Дрейфус-Граф. Текст читается в микрофон. Звуки, из которых состоят слова, анализируются электронным "мозгом", и каждый звук превращается в электрический сигнал. Эти сигналы приводят в действие рычаги электрической пишущей машинки. Как утверждает изобретатель, последнюю модель его пишущей машинки можно "научить" писать со скоростью стенографистки высшей квалификации.

Над созданием пишущих машинок, печатающих под диктовку, работают и советские ученые ряда научно-исследовательских организаций. Достигнутые в последние годы успехи в этой области позволяют надеяться, что в ближайшее время появятся сначала промышленные образцы фонетических машинок, затем будет организован серийный выпуск пишущих машинок-автоматов, обеспечивающих правильную орфографию. А отсюда уже один шаг до устройств, которые станут составной частью переводческих машин. Когда же наши машины в достаточной степени обогатят свой словарный запас (а это время, надо полагать, не очень далеко), они смогут производить синхронный перевод на несколько иностранных языков.

Значительная и даже, пожалуй, основная часть исследований, проводимых в США в области распознавания речи, посвящена созданию квазислуховых автоматов для военных целей. Так, по контракту с Министерством обороны США одна фирма разработала "обучающуюся" машину "Кибертрон" типа К-100, предназначенную для распознавания сигналов гидролокапионного устройства. Процесс самообучения проводится сравнением записей на перфоленту блока памяти сигналов, создаваемых звуколокационным устройством, с последующей записью других сигналов, например сигналов, создаваемых надводным кораблем, которые по своему частотному спектру близки к сигналам от подводных лодок. Машина сравнивает эти сигналы и выдает ответ. Процесс повторяется до тех пор, пока ответ не будет правильным. Обученная таким образом система, по сообщениям американской печати, обеспечивает быстрое и правильное распознавание шумов подводных лодок с ошибкой, не большей, чем у самого опытного оператора гидролокационной станции. Кроме машины типа К-100 фирма разработала другой вариант - "Кибертрон" типа К-200, предназначенный для распознавания слов английской речи.

Действующие, проектируемые и перспективные приборы для опознавания речи можно разделить на несколько видов. Мы дали им совершенно условные названия.

"Сезам" - схема, в которой реализовано сказочное заклинание "Сезам, откройся!". Реагирует только на одно, два или три слова, но произнесенные любыми голосами. Может, если угодно, в самом деле открывать дверь в вашем подъезде (рис. 55).

Рис. 55. 'Сезам'

Рис. 56. 'Жучка'

Рис. 57. 'Эксперт'

Рис. 58. 'Собеседник'

Рис. 59. 'Переводчик'

Рис. 60. 'Полный робот'

Рис. 61. Структурная схема акустического реле

"Жучка" - устройство (рис. 56), хорошо понимающее краткий командный язык из двух-трех десятков слов. Обычно оно натренировано на голос одного оператора. Как мы уже отметили, такой прибор способен управлять автомобилем или самолетом. Одна американская фирма успешно применила его в отделе технического контроля для записи параметров только что изготовленных цветных кинескопов. Другая фирма заставила "Жучку" запоминать свободные места в большом складском помещении и отправлять туда прибывающие контейнеры. Прибор незаменим при сложных научных экспериментах, когда надо записывать результаты, а руки исследователя заняты на пульте управления или облачены в резиновые перчатки.

"Эксперт" - анализатор для выделения голоса одного из нескольких говорящих. Может помочь при опознании преступника, стать настройщиком музыкальных инструментов или контролером качества звучания радиоприемников, телевизоров и магнитофонов (рис. 57).

"Собеседник" - его действия могут быть самыми разнообразными: совет по телефону, когда врач сомневается в постановке диагноза, устный ответ программисту о результатах вычислений на ЭВМ, ответ на запрос о состоянии текущего счета в банке и т. п. Другая модификация - электронный секретарь, соединенный с пишущей машинкой (рис. 58).

"Переводчик" - название устройства не требует комментариев. Это искусственное ухо, подключенное к ЭВМ с программой автоматического перевода с одного языка на другой (рис. 59).

"Полный робот" - автомат, двигающийся впереди человека в опасных ситуациях. Подчиняется голосовым командам и докладывает о ситуации пославшим его людям. Мог бы помочь во время ремонта атомного реактора или путешествия на малоизученную планету (рис. 60).

Человеческое ухо существует в одном варианте. Искусственных, как видим, намечается несколько. Тем лучше! В том-то и сила техники, что она не копирует слепо природу.

ПОИСК:

© ROBOTICSLIB.RU, 2001-2019
При копировании материалов проекта обязательно ставить ссылку на страницу источник:
http://roboticslib.ru/ 'Робототехника'

Поможем с курсовой, контрольной, дипломной

Имя

1500+ квалифицированных специалистов готовы вам помочь

ПринимаюПолитику конфиденциальности