НОВОСТИ    БИБЛИОТЕКА    КАРТА САЙТА    ССЫЛКИ    О ПРОЕКТЕ  

предыдущая главасодержаниеследующая глава

Акустическое восприятие

Характерные особенности звуковых сигналов и распознавание речевых сообщений

Одним из факторов, делающих возможным разумное поведение человека по сравнению с другими живыми существами, является его способность к сложному словообразованию и связанная с этим возможность накопления знаний путем передачи речевых сообщений. В робототехнике, обобщенным эталоном разработок которой является человек, неизбежно увеличение значимости способности роботов к распознаванию звуков - основы слухового восприятия и распознавания речевых сообщений.

Конечная цель распознавания речи заключается в понимании смысла повседневных разнообразных сообщений на естественном разговорном языке. Поскольку распознавание естественной речи и автоматическое выделение смыслового содержания таких сообщений в общем случае крайне сложно, пока экспериментально исследуется только часть этой проблемы - распознавание отдельных слогов и единичных слов, произносимых заранее определенными лицами. Каждому звуку, входящему в состав произносимого слова, соответствует характерная форма звукового сигнала. Накапливая и классифицируя эти формы, теоретически можно представить речевое сообщение в виде их последовательности и таким образом выявить смысловое содержание сообщения. Однако практическая реализация такого подхода чрезвычайно затруднена, и это дает основание отдельным лицам утверждать, что распознавание речевых сообщений на естественном языке вообще невозможно.

Выслушав сообщение на совершенно незнакомом языке, человек не в состоянии точно воспроизвести из услышанного даже короткого слова или фразы. Распознавание человеком на слух речевых сообщений есть результат обобщений данных (большого числа слов, фраз и их сочетаний в различных комбинациях) в процессе накопления личного опыта и выработки способа формирования метода генерации умозаключений на основании этих обобщений. Понимание смысла отдельных слов и целых выражений есть результат такой интеллектуальной (разумной) интерпретации речевых сообщений.

На рис. 5.51 приведены характерные формы звуковых сигналов для пяти фонем японского языка. Более сложные формы многочисленных фонем в различных сочетаниях образуют 53 символа японского алфавита. Используемые в повседневной практике слова являются звуковыми сигналами очень сложной формы вследствие влияния таких факторов, как изменение звучания слов при их объединении в словосочетания и отдельные фразы, индивидуальные различия в произношении этих словосочетаний различными лицами. Результаты анализа этой проблемы можно кратко сформулировать в виде следующих пяти положений.

Рис. 5.51. Характерные формы звуковых сигналов и соответствующие им спектральные характеристики для пяти фонем японского языка
Рис. 5.51. Характерные формы звуковых сигналов и соответствующие им спектральные характеристики для пяти фонем японского языка

● Индивидуальные особенности произношения. Характерные параметры звуковых сигналов существенно различаются в зависимости от индивидуальных особенностей* произносящего эти звуки (рис. 5.51). Эти различия могут быть использованы для идентификации личности, однако они существенно затрудняют распознавание речевых сообщений.

* (Особенностей голосового аппарата, артикуляции, дикции.)

● Интонационные изменения в звучании фонемы. Человек издает звуковые сочетания, последовательно управляя работой голосового аппарата. Поэтому характеристики произносимой фонемы существенно меняются в зависимости от того, какие фонемы произносятся перед ней и после нее. Например, произношение гласной "э" в последовательности "а-и-у-э-о" значительно отличается от изолированного произношения этой гласной. Различие в произношении возрастает с ускорением темпа речи.

● Изменения в произношении каждого высказывания (темп речи, интонационные изменения). Имеют место чередования ускорения и частичного замедления темпа произнесения отдельных фрагментов слова или предложения.

● Влияние окружающего (фонового) шума.

● Выделение основного сообщения из нескольких.

Для упрощения проблемы распознавания звуков вводится ряд ограничений (численности людей, речь которых анализируется, ограниченного числа слов и т. д.). В настоящее время сравнительно легко достигается распознавание порядка сотни отдельных слов, произносимых ограниченным кругом лиц.

Обобщенный алгоритм работы созданных устройств распознавания отдельных слов включает в себя (рис. 5.52):

● корреляционный анализ сигнала с применением аналоговых полосовых фильтров или цифровой обработки;

● выделение характерных значений для образа этого сигнала с возможностью расширения или сжатия (масштабирования) по временной оси частотного спектра сигнала. Эта операция масштабирования обеспечивается методами динамического программирования;

● сравнение полученного в результате подобной обработки образа с эталонными (ранее записанными и хранящимися в памяти устройства) и проведение идентификации по результатам сравнения.

Рис. 5.52. Распознавание звуков отдельных слов
Рис. 5.52. Распознавание звуков отдельных слов

Другими словами, использован метод, согласно которому характерный образ В поступившего звукового сигнала сравнивается с хранящимся в памяти устройства образом А (рис. 5.53), причем для обеспечения хорошего соответствия характерных точек образа с соответствующими точками эталона используется масштабирование по временной оси образа В - равномерное (линейное масштабирование) либо локально-неравномерное (нелинейное масштабирование).

Рис. 5.53. Согласование временных характеристик речевых сигналов методами линейного и нелинейного масштабирования. а - даже при анализе одиночного слова масштабирование не позволяет получить одинаковой временной характеристики нового сигнала; б - линейное масштабирование - длина образов А и В по временной оси сделана одинаковой методом сжатия; в - нелинейное масштабирование - методами динамического программирования обеспечивается совпадение образов А и В (локальное масштабирование в отдельных участках несовпадения). А - хранящийся в памяти эталонный образ; В - входной, анализируемый образ
Рис. 5.53. Согласование временных характеристик речевых сигналов методами линейного и нелинейного масштабирования. а - даже при анализе одиночного слова масштабирование не позволяет получить одинаковой временной характеристики нового сигнала; б - линейное масштабирование - длина образов А и В по временной оси сделана одинаковой методом сжатия; в - нелинейное масштабирование - методами динамического программирования обеспечивается совпадение образов А и В (локальное масштабирование в отдельных участках несовпадения). А - хранящийся в памяти эталонный образ; В - входной, анализируемый образ

Структура систем распознавания речевых сигналов

Рассмотренный способ распознавания речевых сигналов положен в основу структурной организации системы распознавания речевых сигналов (рис. 5.54, а). Предварительно сформированные и хранящиеся в памяти этой системы эталонные образы, содержащие характерные значения распознаваемых речевых сигналов, сравниваются с входным сигналом с целью выявления совпадения образа входного сигнала с эталонным. Идентификация входного сигнала есть констатация факта такого совпадения. Идентификация может быть достигнута и в результате повторяющейся процедуры альтернативного определения фонем в многоуровневой фонетической структуре без использования эталонных образов (рис. 5.54, б). В целом способ с использованием эталонных образов дает лучшие результаты распознавания и в настоящее время считается наиболее перспективным. На рис. 5.55 приведен пример структурной организации системы распознавания речевых сигналов, которая обеспечивает как распознавание отдельных слов, так и семантический анализ лингвистических структур на основе информации, заключенной в предложении.

Рис. 5.54. Структура системы распознавания речевых сигналов. а - структура системы распознавания речевых сигналов с использованием эталонных образов; б - структура системы распознавания речевых сигналов в результате последовательностной альтернативной классификации фонем
Рис. 5.54. Структура системы распознавания речевых сигналов. а - структура системы распознавания речевых сигналов с использованием эталонных образов; б - структура системы распознавания речевых сигналов в результате последовательностной альтернативной классификации фонем

Рис. 5.55. Пример структуры систем распознавания звуковых сигналов. а - система распознавания одиночного слова; б - система распознавания отдельных фонем и слогов; в - система, использующая для распознавания семантическую информацию, содержащуюся в предложении
Рис. 5.55. Пример структуры систем распознавания звуковых сигналов. а - система распознавания одиночного слова; б - система распознавания отдельных фонем и слогов; в - система, использующая для распознавания семантическую информацию, содержащуюся в предложении

На рис. 5.55, а приведена система идентификации на уровне целых слов с алфавитом эталонных образов для распознаваемых слов; на рис. 5.55, б - структурная реализация процесса распознавания на более низком уровне слогов и фонем. Часть системы (рис. 5.55, а) работает на уровне целых слов, а часть (рис. 5.55, в) - на уровне отдельных фонем и слогов, причем идентификация отдельных слов достигается с использованием фонетического словаря этих слов, хранящегося в памяти отдельно от коэффициентов совпадения с эталонными образами. На рис. 5.55, в показан пример структурной организации, ориентированной в основном на распознавание предложений. Это позволяет корректировать ошибочную и недостаточно точную идентификацию, полученную на этапе распознавания слов, благодаря накоплению знаний, связанных с лингвистической информацией, касающейся структуры и семантики предложения (кроме фонетического словаря эталонных образов фонем и целых слов).

Перспективы методологии распознавания речевых сигналов

Способы распознавания речевых сигналов, успешно прошедшие экспериментальные исследования, широко применяются в системах предварительного заказа мест (например, в транспорте, зрелищных мероприятиях и т. д.), системах автоматического выполнения банковских операций и др. В настоящее время изучаются возможности использования специализированных больших интегральных схем для выполнения трудоемких, сложных и многократно повторяющихся вычислительных процедур на этапах ввода в систему речевых сигналов или их синтеза. Прогресс в этом направлении позволяет надеяться, что в ближайшем будущем существенно увеличится быстродействие систем распознавания речевых сигналов. Появление устройств распознавания речи, способных анализировать неадаптированный диалог людей, пока представляется нереальным. Однако возможна автоматизация речевого ввода команд в ЭВМ на естественном японском языке, несмотря на ряд трудностей, обусловленных особенностями японского языка. Поэтому разработчики концентрируют усилия на создании в первую очередь устройств, автоматически печатающих текст с голоса. В области распознавания речевых сигналов аналогично другим направлениям робототехники надежды человечества значительно опережают реально прогнозируемые возможности. Однако неослабевающий интерес людей является одним из стимулов для проведения дальнейших исследований.

предыдущая главасодержаниеследующая глава

Познакомься с красивыми спутницами на сайте https://dzer.inditok.info!











© ROBOTICSLIB.RU, 2001-2019
При копировании материалов проекта обязательно ставить ссылку на страницу источник:
http://roboticslib.ru/ 'Робототехника'
Рейтинг@Mail.ru
Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь