|
Акустическое восприятиеХарактерные особенности звуковых сигналов и распознавание речевых сообщенийОдним из факторов, делающих возможным разумное поведение человека по сравнению с другими живыми существами, является его способность к сложному словообразованию и связанная с этим возможность накопления знаний путем передачи речевых сообщений. В робототехнике, обобщенным эталоном разработок которой является человек, неизбежно увеличение значимости способности роботов к распознаванию звуков - основы слухового восприятия и распознавания речевых сообщений. Конечная цель распознавания речи заключается в понимании смысла повседневных разнообразных сообщений на естественном разговорном языке. Поскольку распознавание естественной речи и автоматическое выделение смыслового содержания таких сообщений в общем случае крайне сложно, пока экспериментально исследуется только часть этой проблемы - распознавание отдельных слогов и единичных слов, произносимых заранее определенными лицами. Каждому звуку, входящему в состав произносимого слова, соответствует характерная форма звукового сигнала. Накапливая и классифицируя эти формы, теоретически можно представить речевое сообщение в виде их последовательности и таким образом выявить смысловое содержание сообщения. Однако практическая реализация такого подхода чрезвычайно затруднена, и это дает основание отдельным лицам утверждать, что распознавание речевых сообщений на естественном языке вообще невозможно. Выслушав сообщение на совершенно незнакомом языке, человек не в состоянии точно воспроизвести из услышанного даже короткого слова или фразы. Распознавание человеком на слух речевых сообщений есть результат обобщений данных (большого числа слов, фраз и их сочетаний в различных комбинациях) в процессе накопления личного опыта и выработки способа формирования метода генерации умозаключений на основании этих обобщений. Понимание смысла отдельных слов и целых выражений есть результат такой интеллектуальной (разумной) интерпретации речевых сообщений. На рис. 5.51 приведены характерные формы звуковых сигналов для пяти фонем японского языка. Более сложные формы многочисленных фонем в различных сочетаниях образуют 53 символа японского алфавита. Используемые в повседневной практике слова являются звуковыми сигналами очень сложной формы вследствие влияния таких факторов, как изменение звучания слов при их объединении в словосочетания и отдельные фразы, индивидуальные различия в произношении этих словосочетаний различными лицами. Результаты анализа этой проблемы можно кратко сформулировать в виде следующих пяти положений. Рис. 5.51. Характерные формы звуковых сигналов и соответствующие им спектральные характеристики для пяти фонем японского языка ● Индивидуальные особенности произношения. Характерные параметры звуковых сигналов существенно различаются в зависимости от индивидуальных особенностей* произносящего эти звуки (рис. 5.51). Эти различия могут быть использованы для идентификации личности, однако они существенно затрудняют распознавание речевых сообщений. * (Особенностей голосового аппарата, артикуляции, дикции.) ● Интонационные изменения в звучании фонемы. Человек издает звуковые сочетания, последовательно управляя работой голосового аппарата. Поэтому характеристики произносимой фонемы существенно меняются в зависимости от того, какие фонемы произносятся перед ней и после нее. Например, произношение гласной "э" в последовательности "а-и-у-э-о" значительно отличается от изолированного произношения этой гласной. Различие в произношении возрастает с ускорением темпа речи. ● Изменения в произношении каждого высказывания (темп речи, интонационные изменения). Имеют место чередования ускорения и частичного замедления темпа произнесения отдельных фрагментов слова или предложения. ● Влияние окружающего (фонового) шума. ● Выделение основного сообщения из нескольких. Для упрощения проблемы распознавания звуков вводится ряд ограничений (численности людей, речь которых анализируется, ограниченного числа слов и т. д.). В настоящее время сравнительно легко достигается распознавание порядка сотни отдельных слов, произносимых ограниченным кругом лиц. Обобщенный алгоритм работы созданных устройств распознавания отдельных слов включает в себя (рис. 5.52): ● корреляционный анализ сигнала с применением аналоговых полосовых фильтров или цифровой обработки; ● выделение характерных значений для образа этого сигнала с возможностью расширения или сжатия (масштабирования) по временной оси частотного спектра сигнала. Эта операция масштабирования обеспечивается методами динамического программирования; ● сравнение полученного в результате подобной обработки образа с эталонными (ранее записанными и хранящимися в памяти устройства) и проведение идентификации по результатам сравнения. Рис. 5.52. Распознавание звуков отдельных слов Другими словами, использован метод, согласно которому характерный образ В поступившего звукового сигнала сравнивается с хранящимся в памяти устройства образом А (рис. 5.53), причем для обеспечения хорошего соответствия характерных точек образа с соответствующими точками эталона используется масштабирование по временной оси образа В - равномерное (линейное масштабирование) либо локально-неравномерное (нелинейное масштабирование). Рис. 5.53. Согласование временных характеристик речевых сигналов методами линейного и нелинейного масштабирования. а - даже при анализе одиночного слова масштабирование не позволяет получить одинаковой временной характеристики нового сигнала; б - линейное масштабирование - длина образов А и В по временной оси сделана одинаковой методом сжатия; в - нелинейное масштабирование - методами динамического программирования обеспечивается совпадение образов А и В (локальное масштабирование в отдельных участках несовпадения). А - хранящийся в памяти эталонный образ; В - входной, анализируемый образ Структура систем распознавания речевых сигналовРассмотренный способ распознавания речевых сигналов положен в основу структурной организации системы распознавания речевых сигналов (рис. 5.54, а). Предварительно сформированные и хранящиеся в памяти этой системы эталонные образы, содержащие характерные значения распознаваемых речевых сигналов, сравниваются с входным сигналом с целью выявления совпадения образа входного сигнала с эталонным. Идентификация входного сигнала есть констатация факта такого совпадения. Идентификация может быть достигнута и в результате повторяющейся процедуры альтернативного определения фонем в многоуровневой фонетической структуре без использования эталонных образов (рис. 5.54, б). В целом способ с использованием эталонных образов дает лучшие результаты распознавания и в настоящее время считается наиболее перспективным. На рис. 5.55 приведен пример структурной организации системы распознавания речевых сигналов, которая обеспечивает как распознавание отдельных слов, так и семантический анализ лингвистических структур на основе информации, заключенной в предложении. Рис. 5.54. Структура системы распознавания речевых сигналов. а - структура системы распознавания речевых сигналов с использованием эталонных образов; б - структура системы распознавания речевых сигналов в результате последовательностной альтернативной классификации фонем Рис. 5.55. Пример структуры систем распознавания звуковых сигналов. а - система распознавания одиночного слова; б - система распознавания отдельных фонем и слогов; в - система, использующая для распознавания семантическую информацию, содержащуюся в предложении На рис. 5.55, а приведена система идентификации на уровне целых слов с алфавитом эталонных образов для распознаваемых слов; на рис. 5.55, б - структурная реализация процесса распознавания на более низком уровне слогов и фонем. Часть системы (рис. 5.55, а) работает на уровне целых слов, а часть (рис. 5.55, в) - на уровне отдельных фонем и слогов, причем идентификация отдельных слов достигается с использованием фонетического словаря этих слов, хранящегося в памяти отдельно от коэффициентов совпадения с эталонными образами. На рис. 5.55, в показан пример структурной организации, ориентированной в основном на распознавание предложений. Это позволяет корректировать ошибочную и недостаточно точную идентификацию, полученную на этапе распознавания слов, благодаря накоплению знаний, связанных с лингвистической информацией, касающейся структуры и семантики предложения (кроме фонетического словаря эталонных образов фонем и целых слов). Перспективы методологии распознавания речевых сигналовСпособы распознавания речевых сигналов, успешно прошедшие экспериментальные исследования, широко применяются в системах предварительного заказа мест (например, в транспорте, зрелищных мероприятиях и т. д.), системах автоматического выполнения банковских операций и др. В настоящее время изучаются возможности использования специализированных больших интегральных схем для выполнения трудоемких, сложных и многократно повторяющихся вычислительных процедур на этапах ввода в систему речевых сигналов или их синтеза. Прогресс в этом направлении позволяет надеяться, что в ближайшем будущем существенно увеличится быстродействие систем распознавания речевых сигналов. Появление устройств распознавания речи, способных анализировать неадаптированный диалог людей, пока представляется нереальным. Однако возможна автоматизация речевого ввода команд в ЭВМ на естественном японском языке, несмотря на ряд трудностей, обусловленных особенностями японского языка. Поэтому разработчики концентрируют усилия на создании в первую очередь устройств, автоматически печатающих текст с голоса. В области распознавания речевых сигналов аналогично другим направлениям робототехники надежды человечества значительно опережают реально прогнозируемые возможности. Однако неослабевающий интерес людей является одним из стимулов для проведения дальнейших исследований. Познакомься с красивыми спутницами на сайте https://dzer.inditok.info! |
|
|||
© ROBOTICSLIB.RU, 2001-2019
При копировании материалов проекта обязательно ставить ссылку на страницу источник: http://roboticslib.ru/ 'Робототехника' |