НОВОСТИ    БИБЛИОТЕКА    КАРТА САЙТА    ССЫЛКИ    О ПРОЕКТЕ  

предыдущая главасодержаниеследующая глава

Моделирование речи

Искусственная речь и связанные с ней проблемы

Говорящие машины уже существуют. Словарь их пока небольшой - состоит из слов, произнесенных человеком, которые записаны на магнитном барабане. Наиболее известный пример - "говорящие часы", работающие на многих телефонных станциях. Позднее этот принцип был использован фирмами, производящими ЭВМ, для обслуживания объектов телефонной сети разнообразной справочной информацией.

Машины, использующие предварительно записанную речь, довольно дешевы и очень удобны, если число сообщений невелико, но непригодны, если требуется обычная непрерывная речь. Одна из причин состоит в том, что с возрастанием числа хранимых слов хранилище записанных слов становится слишком большим и поэтому дорогим. Другой причиной является то, что в разговорной речи одно и то же слово может участвовать в предложениях разного типа, с различными ударениями, интонациями и несколькими вариантами произношения. Поэтому невыгодно использовать непосредственную запись речи для говорящих машин более общего типа. Выгоднее пользоваться машинами, в некотором смысле моделирующими работу голосовой системы человека. Машины, которые не воспроизводят ранее записанную речь, а генерируют речь синтетическую, называются "синтезаторами речи".

История синтезаторов речи очень стара. Наиболее ранние были непосредственными копиями человеческого речевого аппарата и использовали воздуходувные мехи, язычки и резонаторы. Управляли этими машинами, как правило, вручную, с помощью набора рычагов. Одна из машин этого типа построена Вольфгангом фон Кемпелиа в конце XVIII века. Известно, что она очень хорошо имитировала речь, хотя не совсем правильно воспроизводила некоторые звуки. В 1920 г. акустическая модель Р. Пэджета произносила целые фразы, например: "Алло, Лондон, вы слушаете?" или "О, Лейла, я люблю вас!" Для этого автору приходилось руками очень искусно изменять форму резонирующей полости машины.

При дальнейшем моделировании оказалось (как часто бывает при моделировании функций человеческого организма), что воспроизведение человеческой речи очень сложно, а число переменных величин и их связей астрономическое.

Развитие говорящих машин стало действительно возможным только с появлением современной электронной техники, которая позволяет достигнуть необходимого уровня сложности значительно легче, чем любая механика, изготовленная человеком.

Убедиться в исключительной сложности речевых сигналов позволяют спектрографы или анализаторы, записывающие звуки в области частот человеческого голоса Простейшим прибором для частотного анализа является языковый частотомер, содержащий ряд упругих стальных пластинок с различной частотой собственных колебаний. При подаче на электромагнит этого прибора сигналов речи поле электромагнита возбуждает только тот язычок, собственная частота которого совпадает с частотой наблюдаемого сигнала.

Рис. 41. Спектр звука сирены
Рис. 41. Спектр звука сирены

Рис. 42. Спектр звука человеческой речи
Рис. 42. Спектр звука человеческой речи

Рис. 43. Структурная схема электронной говорящей машины
Рис. 43. Структурная схема электронной говорящей машины

Рис. 44. Контурные диаграммы английского слова 'you'
Рис. 44. Контурные диаграммы английского слова 'you'

На рис. 41 показан получающийся таким способом частотно-временной спектр звука сирены с постепенно повышающейся частотой, а на рис. 42 - спектр звука отдельного слова, произнесенного человеком. Как видно из рисунков, звуковые колебания, образующие речь (в отличие от "речи" автомата-сирены), содержат много составляющих, которые в сумме создают сложную картину, с трудом поддающуюся интерпретации.

На рис. 43 приведена структурная схема электронной говорящей машины, широко применяемой в различных исследованиях и управляемой от ЭВМ. В ней используется то обстоятельство, что подавляющая часть энергии звука речи сосредоточена в пяти типичных областях частот (фонем). Для управления машиной от ЭВМ требуется лишь небольшое количество информации. При тщательных исследованиях речи с помощью так называемых формантных синтезаторов можно получить "картины" отдельных звуков или слов. К сожалению, эти звуковые "картины" очень отличаются не только у различных дикторов, но даже у одного и того же человека в разное время.

Взгляните на шесть контурных диаграмм английского слова "you" (рис. 44), и вы убедитесь в этом. Диаграммы получены от пяти различных людей, произносивших слово "you", при этом верхняя левая и нижняя правая "картины" получены при произнесении слова одним и тем же человеком (на диаграммах контурные линии изображают различные интенсивности звучания).

предыдущая главасодержаниеследующая глава











© ROBOTICSLIB.RU, 2001-2019
При копировании материалов проекта обязательно ставить ссылку на страницу источник:
http://roboticslib.ru/ 'Робототехника'
Рейтинг@Mail.ru
Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь