НОВОСТИ    БИБЛИОТЕКА    КАРТА САЙТА    ССЫЛКИ    О ПРОЕКТЕ  

предыдущая главасодержаниеследующая глава

Распознавание звуков речи

Распознавание звуков речи
Распознавание звуков речи

Выделение признаков, 
однозначно определяющих звук речи. 

Поговорим по-человечески

Человек. Были ли вы рады дождю, который прошел сегодня после полудня?

Машина. Нет, я люблю больше солнечную погоду.

Человек. В жаркую погоду для человека нужна по крайней мере одна ванна в день.

Машина. Да, я как раз был на улице и изнемогал от жары.

Человек. Когда придет рождество, будет холодная погода.

Машина. Холодная погода? Да, обычно в декабре морозно.

Человек. Сегодня ясная погода. Долго она будет продолжаться?

Машина. Позвольте мне не лгать. Это подходит больше торговцу. Как же может дождливая погода быть ясной?

Такой диалог между человеком и машиной - отнюдь не отрывок из научно-фантастического рассказа. Он произошел на обычном английском языке несколько лет назад в университете Торонто, в Канаде.

А вот американская машина, названная за свои миниатюрные размеры "Кирпичиком", пока разговаривать не научилась. Но она умеет распознавать на слух слова, относящиеся к арифметике.

"Кирпичик" довольно привередлив. Он не терпит небрежности в произношении, требует точной и ясной дикции. Может быть, поэтому он с трудом понимает слова, с которыми обращаются к нему женщины.

Справедливости ради, чтобы не быть слишком придирчивым к "Кирпичику", стоит заметить: капризным "нравом" обладает и другая представительница нарождающегося племени говорящих машин. Она "живет" в Институте языкознания Грузинской Академии наук. Ее учили произносить слова и фразы на грузинском языке. С этим она успешно справлялась. Тогда ее попробовали "настроить" на русскую речь... Она заговорила с характерным южным акцентом.

Звуковая волна, возникающая при произнесении звука 'А'
Звуковая волна, возникающая при произнесении звука 'А'

Для того чтобы машина "научилась" разговаривать с человеком, отвечать на поставленные ей вопросы, ученые затрачивают очень много сил и времени, "начиняя" машинную "память" гигантской информацией. Чего только не пришлось узнать машине, работающей по программе, почтительно названной "Сэр", прежде чем она смогла ответить на предельно простой - по нашим понятиям - вопрос: сколько пальцев у Джона?

Не правда ли, это очень интересно - машина, слушающая и понимающая человеческие слова. И, конечно, каждому хотелось бы знать, как же она распознает звуки.

Здесь есть два ответа: распознавать звуки и легко, и трудно. Сначала познакомимся с тем, что легко, - с акустической, физической стороной дела.

Звуки - это колебания воздуха, волны разной частоты. Каждому из звуков речи соответствует своя частота. Поэтому в создании определенного звука не обязательно участие голосовых связок, звук можно искусственно синтезировать.

С этой целью машину заставляют прослушивать слова, произнесенные и одним человеком много раз, и разными людьми. Естественно, каждый одно и то же слово произносит по-своему: разный тембр (звуковая окраска) голоса, разные интонации, разная чистота произношения. Задача машины, прослушав, "усреднить" особенности произношения, "сравнять на нет" индивидуальность, чтобы потом, услышав знакомое слово, не ошибиться.

Что же происходит при этом внутри машины? То же, что при разговоре по телефону или радио: звуковые колебания преобразуются в электрические. В специальных "решетах"-фильтрах они "просеиваются" по частоте. Затем в машинной "памяти" сравниваются с хранящимися там эталонами по строго определенному "узору" сигналов. Этот "узор" - картина звука - и есть тот усредненный звук, который "научилась" узнавать машина.

Получение "узора" - работа довольно утомительная и однообразная. Например, при одном эксперименте испытуемый 100 раз произнес букву "а". Она описывалась - все* 100 раз-14 вариантами произношения, или, как их еще называют, картинами. Сравнили потом "узоры" по частоте появления. Оказалось, из 14 вариантов чаще всего встречается одна картина. Именно эту картину и записали в машинной "памяти".

Машину учат распознавать речь по-разному: словами, слогами, фонемами - отдельными звуками.

Машину "Кирпичик", например, учили узнавать слова по чередованию звонких и шумовых звуков. Для этого в "Кирпичике" предусмотрена специальная "схема выделения", где слова разбиваются по признакам на группы. Нужные слова четким голосом произносят перед микрофоном, а затем они проходят через усилитель. Из "схем выделения" преобразованные в импульсы слова попадают в цепочки регистров и "решающих схем".

Здесь результаты выделения анализируются. Сколько слов распознает машина, столько выводящих схем нужно предусмотреть в ней.

"Кирпичик" знает 16 слов, 10 цифр и 6 специальных команд - арифметических действий с цифрами.

Так делают речь 'видимой'. Микрофон преобразует звук в электрический ток соответствующих частот. Затем его пропускают -через частотный фильтр. Каждому фильтру соответствует определенный диапазон высоты звуков. Маленькие электрические лампочки, подключенные к фильтрам, реагируют яркостью света на колебания тока. Изменение яркости фиксируется на светочувствительной пленке. Внизу - четырнадцать различных картин, полученных при 100 произношениях буквы 'А'
Так делают речь 'видимой'. Микрофон преобразует звук в электрический ток соответствующих частот. Затем его пропускают -через частотный фильтр. Каждому фильтру соответствует определенный диапазон высоты звуков. Маленькие электрические лампочки, подключенные к фильтрам, реагируют яркостью света на колебания тока. Изменение яркости фиксируется на светочувствительной пленке. Внизу - четырнадцать различных картин, полученных при 100 произношениях буквы 'А'

Машина 'Кирпичик' узнает слова по чередованию звонких и шумовых звуков (СВ - схема выделения)
Машина 'Кирпичик' узнает слова по чередованию звонких и шумовых звуков (СВ - схема выделения)

Нельзя не признать, что работа эта требует немалых затрат, усилий, экспериментов, времени. И все-таки это легко, легко по сравнению с теми трудностями, которые преодолевают кибернетики, решая проблему распознавания речи.

* * *

Теперь поговорим о том, что трудно: машина должна не только распознавать звуки, но и понимать речь. Понимать речь - отличие огромное. А сейчас машине не понятен ни один живой язык.

Ведь почти любая звучащая фраза может быть воспринята по-разному. Даже такая немудрящая, как: "Завод выпускает тракторы", сложна для машины. А слова-омонимы, звучащие совершенно одинаково, но имеющие разный смысл? А образы, гиперболы, сравнения? Как "передать" их машине, "машинному разумению"?

Машина негибка, "неповоротлива" в восприятии слов, она не может различать эмоциональные и смысловые оттенки. Для нее недоступно образное мышление: только сухая логичность, только строгая однозначность, только неумолимая точность - никакой свободы, никакой эластичности, никакой иносказательности!

Чрезвычайно трудно преодолеть этот смысловой барьер, заставить машину понимать живую человеческую речь! Разными способами действуют ученые, разные "педагогические приемы" применяют они к своим "металлическим" ученикам. Но, пожалуй, самым действенным признан теперь метод, предложенный советским ученым Андреем Ершовым. Вот как описывает его автор, показывая сам принцип.

"Предположим, машина "владеет" некоторым входным языком, представляющим собой достаточно содержательную формализацию русского языка. Не зная этого входного языка, человек обращается к машине в той форме, которую он считает удобной для себя. Электронно-вычислительная машина имеет программу, которая определяет, понятен ей заданный текст или нет или понятен только частично. Если текст понятен, машина начинает выполнять задание. Если же текст непонятен, электронно-вычислительная машина, выделяя из него неясные места, задаст вам серию вопросов. Вы ответите ей опять в той форме, которую сочтете более удачной. Эти ответы будут как бы перефразировкой неясных машине вопросов, пересказ "другими словами". Машина, получив эти перефразировки, подставляет их в текст и опять анализирует его. Если ей еще что-то неясно, она опять задаст дополнительные вопросы, и между человеком и машиной завяжется диалог. В результате этого диалога человек будет все более упрощать формулировку задания, пока оно полностью не будет понятно машине.

Такой разговор, пожалуй, можно сравнить с диалогом учителя и нерадивого ученика. Ученик никак не хочет понять, что хочет от него учитель, и задает вопросы до тех пор, пока ему, как говорится, все "не разжуют". Только в случае с машиной сложнее. Диалог человека с электронно-вычислительной машиной можно охарактеризовать как приспособление человека к возможностям машины, как некое "привыкание" одного к другому.

...Во взаимоотношениях человека и машины надо добиться, чтобы машина с каждым новым заданием становилась все "понятливее", чтобы, получая аналогичные задания, она не задавала одних и тех же вопросов.

Иначе говоря, надо, чтобы машина сохранила в своей электронной "памяти" "протоколы" всех бесед с человеком и свои новые задания употребляла в дальнейшей работе. Это не что иное, как обучение машины человеческому языку".

Но пока... Пока мы разговариваем с машиной так, как удобно не нам, а ей. Бурное же развитие вычислительной техники, широкое применение электронных управляющих систем поставило вопрос о тесном общении человека с машиной. Надо добиться, чтобы в этом общении не было временных разрывов: человек сказал, машина сделала. Вот поэтому-то и стараются научить машину понимать язык людей.

Преимущества тесного контакта человека и машины неоспоримы.

Представьте себе, насколько упростилась бы работа специалистов по машинному переводу. Не нужны были бы кодировщики, переводящие текст в "цифровой вид". Читай перед микрофоном раздельно и внятно фразы - машина все понимает.

Машина, печатая под диктовку, распознает свыше пятидесяти односложных слов. Звуки после усиления поступают в фильтры, где разделяются по частоте, и затем передаются в блок сравнения. Здесь происходит перекодирование звуков - они записываются цифрами. Затем цифровой код сравнивается с записанными в 'памяти' кодами распознаваемых слогов. Совпадение записей означает, что соответствующий слог найден. Тогда машина печатает его
Машина, печатая под диктовку, распознает свыше пятидесяти односложных слов. Звуки после усиления поступают в фильтры, где разделяются по частоте, и затем передаются в блок сравнения. Здесь происходит перекодирование звуков - они записываются цифрами. Затем цифровой код сравнивается с записанными в 'памяти' кодами распознаваемых слогов. Совпадение записей означает, что соответствующий слог найден. Тогда машина печатает его

Или другая картина: информационная машина, услышав вопрос о том, где, когда, кем, кому, на какое изобретение был выдан патент, тут же выдает вам справку - точную, исчерпывающую.

Говорящие и понимающие машины были бы нужны везде. "Электронные арифмометры" производили бы арифметические операции с голоса. Управляющие системы, переработав информацию, принятую с голоса, отдавали бы нужные приказы. Такие машины могли бы работать в научно-исследовательских центрах, в промышленности, на транспорте, на строительстве.

И как это нужно, как необходимо! Уже теперь в диалог с машиной приходится вступать не только программистам-вычислителям, но и людям неподготовленным: экономистам, использующим вычислительную технику на производстве; диспетчерам, управляющим автоматическими системами; а в недалеком будущем - людям многих других специальностей.

Сегодня электронные машины воспринимают "на слух" несколько десятков слов. Они похожи на маленького ребенка, который только "составляет" свой словарный запас, только учится произносить слова, чтобы вскоре заговорить, "как все".

Поговорим по-человечески
Поговорим по-человечески

предыдущая главасодержаниеследующая глава











© ROBOTICSLIB.RU, 2001-2019
При копировании материалов проекта обязательно ставить ссылку на страницу источник:
http://roboticslib.ru/ 'Робототехника'
Рейтинг@Mail.ru
Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь