НОВОСТИ    БИБЛИОТЕКА    КАРТА САЙТА    ССЫЛКИ    О ПРОЕКТЕ  

предыдущая главасодержаниеследующая глава

Робот: читаю и могу изъясняться

Постоянно "общаясь" с человеком, робот вынужден научиться понимать человеческий язык, реагировать на команды, задаваемые не только нажатием кнопок, но и команды, отдаваемые голосом. Это куда более "привычное" для человека средство общения и верный путь для расширения популярности роботов. Однако проблема "взаимопонимания" человека и машины куда сложнее, чем трудности общения даже двух людей, говорящих на разных языках. История сохранила немало курьезов подобного "понимания". Так, английский капитан Дж. Кук, вторично "открывший" Австралию, писал в своем дневнике о "странном существе, которое скачет на задних лапах, как прыгающая мышь". Когда Дж. Кук справлялся о нем у местных жителей, туземцы отвечали одним словом "кенгуру". Современные языковеды установили, что на языке туземцев "кенгуру" означает всего лишь "я тебя не понимаю"! А ведь язык человека и язык компьютера разнятся буквально как "лед и пламень".

Надо сказать, что человеческий язык уже давно "волновал" умы машин. Приборы, читающие печатный текст и являющиеся, как правило, частями других, более сложных устройств, уже перестали быть технической новинкой. Достаточно вспомнить почтовые автоматы, сортирующие корреспонденцию в зависимости от шестизначного почтового индекса. Однако такие примитивные устройства способны "понимать" лишь сильно стилизованный текст, написанный по заданному трафарету. А как же простой печатный шрифт? Неужели нужно специально переписывать для робота миллионы человеческих книг?

Вот последнее достижение в этой области - читающий компьютер третьего поколения. Он "умнее" своих предшественников - читает тексты, отпечатанные шрифтами двадцати пяти различных видов. "Тренировочная фаза" в течение 15-20 минут позволяет прибору переходить на другой вид шрифта. Машина работает по принципу "оптического ощупывания" со скоростью 20-30 печатных знаков в секунду. Существуют и разработки, нацеленные на распознавание рукописного текста.

В речи нет четких границ между звуками, и это сильно затрудняет распознавание по сравнению с каким-либо печатным текстом
В речи нет четких границ между звуками, и это сильно затрудняет распознавание по сравнению с каким-либо печатным текстом

Однако проблема восприятия информации "с голоса" гораздо сложнее. Печатный текст формируется из четких знаков - букв, живая речь из атомов речи - звуков или, как их называют специалисты, - фонем (отсюда "фонетика" - наука о правильном произношении). Как объект физического анализа каждый звук речи отличается от другого и частотой, и продолжительностью, и интенсивностью. Кроме того, в речи нет четких границ между звуками, как между буквами в тексте, и это сильно затрудняет распознавание по сравнению с любым печатным текстом. Одни специалисты пытаются распознавать речь по частотным характеристикам, присущим звучанию каждой буквы (заметим, что в некоторых буквах несколько фонем). Другие - по группе фонем, составляющих слог, так как распознавание многих фонем вне контекста очень трудно.

Для того чтобы понять, сколь сложна проблема звукового распознавания человеческой речи, уместно привести такой почти анекдотический пример, В одном научно-исследовательском институте, расположенном на Кавказе, была построена кибернетическая черепаха, которая выполняла фиксированный набор команд, подаваемых голосом. На торжественную демонстрацию съехались гости. Черепаха была послушна своим создателям, но "принципиально" отказалась слушаться гостей. Как выяснилось в результате пристрастного разбирательства, гостям она не повиновалась по одной простой причине... команды нужно было произносить с "кавказским акцентом". То, что мы называем кавказским акцентом, всего лишь связано с повышенным участием в произношении некоторых звуков гортани. Проблема машинного слуха настолько сложна, что не имеет имитационных аналогов механического моделирования в глубинах истории. Анналы техники не сохранили нам достоверных сведений о слушающих андроидах. То ли слуховой аппарат человека оказался слишком замысловатым для чисто механического подражания, то ли роль мозга оказалась слишком велика в слуховом процессе, по крайней мере, проблема машинного слуха так же, как и зрения, стала актуальной лишь на электронном уровне. К сожалению, известный нам микрофон еще меньше напоминает человеческое ухо, чем телекамера человеческий глаз. Имевшиеся в распоряжении ученых ЭВМ поначалу с трудом справлялись с предлагаемым им объемом "распознавательных" работ. Они реагировали далеко не на каждый толос, а лишь на тот, на который они настроены заранее. К тому же у них был ограниченный словарный запас.

Загвоздка состоит в следующем: число возможных вариантов спектра фонем, учитывая словарное богатство каждого языка, выражается астрономической величиной, и это не считая того, что спектры даже одинаковых слов разнятся в зависимости от индивидуума, их произносящего. Более того, даже один и тот же человек в течение одной недели, даже нескольких часов будет произносишь одни и те же слова совершенно по-разному.

Первые акустические системы безошибочно распознавали лишь отдельно сказанные буквы алфавита, следующие - отдельные слова команд, четко произнесенные в микрофон. Однако понимающий робот "слушался" лишь голоса своего "хозяина" и делал это очень хорошо. Во время работы он самостоятельно приспосабливался к "постоянно меняющейся языковой манере человека". Другим людям, которые вступали в контакт с роботом и произносили в микрофон буквы или цифры, удавалось его "обмануть". Но это бывало лишь тогда, когда голос говорящего напоминал голос "хозяина". Конечно, "привыкание" машины к другим голосам не связано с какими-то непреодолимыми трудностями, просто компьютер вырабатывает "модель голоса данного индивидуума". Для этого необходимо ввести в память ряд звуковых проб со словами, которые машина должна понимать.

Можно не сомневаться, что в будущем понимающие наш язык аппараты, если мы хотим, чтобы они утвердились в производстве и быту, должны обладать такой степенью приспособляемости, чтобы узнавать голоса любых людей и выполнять любые команды.

В настоящее время уже нашли применение около пятисот систем распознавания речи. Они используются при контроле качества продукции на конвейерах, при управлении станками, сортировке товаров и багажа в аэропортах, с целью включения электроприборов, вызова врача или медсестры, в системах программированного обучения, опознавания личности и т. д. и т. п. Имеются практические примеры применения понимающих речь роботов и в непромышленной сфере.

Системы, распознающие печатный текст, уже не новость. Но вот эта - особенная. Сконструированы роботы, которые работают в паре - один переворачивает страницы текста, а другой... читает слова приятным женским голосом. Точность распознавания 99,5 процента. Эти роботы могут излагать последние известия по радио и отвечать на вопросы по телефону. Конструкторы создали механического чтеца вовсе не для рекламы, ему уже уготовано рабочее место - он будет служить в автоматизированной телефонной справочной службе. Конечно, можно и специально ввести в компьютер всю необходимую справочную информацию; но зачем делать еще раз то, что уже однажды сделано, ведь телефонные книги и справочники уже отпечатаны, они и в будущем будут переиздаваться и корректироваться, ими будут пользоваться люди... а теперь еще и роботы.

Да! Общение с человеком пошло роботу на пользу, он получил еще одну чисто человеческую привилегию - заговорил. Таким образом, к привычным механическим эффекторам робота добавилось еще одно немаловажное устройство - синтезатор речи.

Машина, которая "говорит", не такая уж новинка, к примеру обыкновенный магнитофон. Однако он, к сожалению, "говорит" только то, что записано на пленку, то, что заранее "наговорил" ему человек. С подобной говорящей машиной можно легко "побеседовать", достаточно лишь набрать номер московских "говорящих часов" 100.

А что, если наговорить кучу самых разных слов и поручить компьютеру находить и воспроизводить нужные слова в нужной последовательности в процессе разговора? Получится ли правильная человеческая речь?

Вряд ли. Ведь одно и то же слово участвует в предложениях разного типа с десятком интонаций, сотнями вариантов произношения. Чтобы такая речь мало-мальски "ласкала слух", потребуется слишком большая куча вариантов произнесения слов и, следовательно, слишком длительный поиск нужного варианта. Все это окажется слишком дорого. Хорошо бы, задумались конструкторы, создать машину, которая бы не воспроизводила заранее записанные фрагменты, а говорила сама, то есть синтезировала речь, подобно человеку.

Историю говорящих машин следовало бы начать с глубины веков. Самые первые были тщательными моделями человеческого речевого аппарата. Кузнечный мех вдувал мощную струю воздуха в кожаную гортань, язычки и резонаторы, управляемые набором рычагов, вибрировали, и машина "говорила". Достоверно известна одна из конструкций такого типа, построенная В. фон Кемпелиа в конце XVIII века. Она неплохо имитировала человеческую речь, хотя не совсем правильно произносила некоторые звуки. В 1920 году Р. Пэджет демонстрировал акустическую модель речевого аппарата, которая удивляла слушателей целыми фразами, например: "О Лейла, я люблю вас!" или: "Алло, Лондон, вы слушаете?" Изобретатель, манипулируя руками, очень искусно изменял форму резонирующей полости механической гортани - и одна фраза менялась на другую.

Как это неоднократно происходило в истории техники, механический принцип копирования благополучно завершил серию тщетных потуг и новая фаворитка человечества - электроника прочно уселась на его место.

Исследованиями было установлено, что подавляющая часть "звуковой энергии" человеческой речи сосредоточена в пяти типовых областях частот: от 200 до 3500 герц. Эта шкала разбивается на пять фонем, каждая из которых генерируется своей специально настроенной звуковой схемой. Управление частотой и амплитудой каждой схемы, а также очередностью их срабатывания поручается компьютеру. В результате определенных последовательностей включения генерирующих схем и возникают необходимые звуки "человеческого голоса".

Однако качество работы машины, полностью синтезирующей речь, в большой степени зависит от того, насколько удачно удается электронная имитация смеси переходных шумов между отдельными звуками, поскольку эти шумы играют определяющую роль для понимания языка вообще и, следовательно, искусственного языка в частности. Еще более усложняет все дело то, что они бывают чрезвычайно разнообразными, зависят от того, в какой последовательности произносятся гласные и согласные, от скорости и громкости произнесения слов и т. д. и т. п.

Еще недавно как великую экзотику демонстрировали кибернетики системы, полностью синтезирующие человеческую речь, а уже поступают сообщения о серийном выпуске говорящих часов, фотокамер и светофоров. Это следствие появления на рынке близкого родственника современного микропроцессора - который назван voiceprocessor (от английского слова "voice" - голос). Что-то вроде "процессор для синтеза голоса" или "голосистый процессор". Такое устройство программируется как обычный компьютер и может синтезировать электронную копию волнового спектра, возникающего при произнесении слов. Этим машина похожа на читающего, который, правда, не имеет понятия о смысле прочитанного.

Лингвистические способности роботов не только "оживили" безгласные вещи, но и помогают человеку в его "разговорной деятельности"; например, созданы карманные компьютеры, используемые в качестве помощников при переводе, которые "выговаривают" отдельные слова с правильным произношением на нужном языке; или целые роботы-переводчики, которые могут осуществлять перевод международных разговоров несложного бытового содержания. Такова, например, система перевода английский - японский. Память робота содержит около восьми тысяч фонем слов, четыреста идиом, примерно тысячу грамматических правил обоих языков. Она почти не отличается от аналогичных интеллектуальных переводчиков. Шагом вперед явилось ее объединение с распознавателем и синтезатором речи.

Одна из фирм в ФРГ, занимающаяся выполнением заказов по пересылке, давно использует в своей деятельности компьютер, который отвечает на звонок человеческим голосом, робот подтверждает получение заказа или же сообщает о невозможности его выполнения, закончив разговор, говорит "спасибо" и "до свидания".

Хорошо трудится вот уже почти два года "Карлуша" - крупная железнодорожная справочная система: абонент называет вокзал назначения и без промедления получает устную справку о поездах, следующих в данном направлении, времени и вокзалах, в которых можно сделать удобную пересадку.

Постоянно растущий объем информации требует новых путей и методов ведения информационно-справочной работы. Все острее ощущается нехватка людей, времени и средств для компетентных ответов на вопросы из всех областей знания. В будущем тут могут помочь лишь понимающие язык и могущие "изъясняться" роботы, снабженные "банками памяти".

Серьезные усилия, прилагаемые в области создания машин, понимающих человеческую речь и отвечающих людям, наглядно свидетельствуют о том, что речь при этом идет не о каких-то игрушках. Взаимодействие с машиной на языковом уровне позволит людям, не обладающим специальными знаниями, эффективно пользоваться компьютерами и роботами.

предыдущая главасодержаниеследующая глава











© ROBOTICSLIB.RU, 2001-2019
При копировании материалов проекта обязательно ставить ссылку на страницу источник:
http://roboticslib.ru/ 'Робототехника'
Рейтинг@Mail.ru
Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь