Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи



Скачать 362.39 Kb.
страница1/3
Дата01.08.2013
Размер362.39 Kb.
ТипИсследование
  1   2   3



На правах рукописи


Нгуен Ван Хунг

Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи

Специальность 05.13.11 – Математическое

и программное обеспечение вычислительных машин,

комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук
Москва – 2010
Работа выполнена в ГОУ ВПО «Московский энергетический институт (технический университет)» на кафедре Вычислительных машин систем и сетей (ВМСиС) института Автоматики и вычислительной техники (АВТИ).


Научный руководитель:

кандидат технических наук, доцент

Евсеев Анатолий Ильич

Официальные оппоненты:

доктор технических наук, профессор

Вагин Вадим Николаевич,

кандидат технических наук, с.н.с.

Жигулевцев Юрий Николаевич

Ведущая организация:

Вычислительный Центр Российской Академий Наук (г. Москва)


Защита состоится « 26 » ноября 2010 г. в 16 час. 00 мин. На заседании диссертационного совета Д 212.157.01 при Московском энергетическом институте (техническом университете) по адресу: Москва, Красноказарменная ул., д. 17, ауд. Г-310.
С диссертацией можно ознакомиться в библиотеке Московского энергетического института (технического университета).
Отзывы в двух экземплярах, заверенные печатью, просим направлять по адресу: 111250, Москва, Красноказарменная ул., д. 14, Учёный совет МЭИ (ТУ).
Автореферат разослан « » октября 2010 г.



Учёный секретарь

диссертационного совета Д 212.157.01

кандидат технических наук, доцент

М. В. Фомина


ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы

Естественное, языковое общение является для человека самым удобным и привычным. Поэтому неудивительно, что учёные и инженеры на протяжении многих лет решают проблему речевого общения человека и машины. Основная задача речевого интерфейса   понимать человеческую речь и правильно реагировать на нее. Проблема состоит в том, чтобы научить устройство понимать без посредника тот язык, на котором говорят люди между собой, то есть придумать алгоритм распознавания звукового сигнала речи. Этим и занимается технология распознавания речи.


Эта задача поставлена более 60 лет назад, но полученные решения ещё не совершенны. Это показывает, что распознавание речи является сложной проблемой. Таким образом, проблема исследования распознавания речи человека является актуальной с практическим применением даже в частных решениях.

Цель диссертационной работы

Основная цель диссертационной работы заключалась в исследовании методов распознавания речи и разработке программ автоматического распознавания ограниченного набора команд вьетнамской речи. Для достижения этой цели в ходе выполнения диссертационной работы решались следующие основные задачи:

  1. Обзор существующих методов автоматического распознавания речи.

  2. Исследование особенностей произношения вьетнамской речи, влияющих на методы распознавания речи.

  3. Разработка методов и алгоритмов распознавания вьетнамской речи.

  4. Программная реализация предлагаемых алгоритмов и демонстрация результатов поэтапной обработки речевого сигнала.

Методы исследований

В работе использовались методы математического анализа, методы цифровой обработки сигнала, теории распознавания образов и теории вероятностей.

Научная новизна

Научная новизна диссертационной работы заключается в том, что предложено нескольких новых методов:

  1. Проведена модернизация алгоритма обнаружения речи (начала и конца речевого сигнала) на фоне шума.

  2. Предложен метод сегментации слитных речевых словосочетаний вьетнамского языка на отдельные слоги, соответствующие вьетнамским словам.

  3. Предложен метод разбиения голосовых участков речи на квазипериоды, равные периодам основного тона.

  4. Предложен метод формирования динамики формант по результатам спектрального анализа. Отображение их в графическом виде может применяться для изучения произношения и разработки методов распознавания слов и фраз.

  5. Предложен метод формирования эталонов для распознавания слов и фраз, основанный на особенностях вьетнамской речи. На его основе, предложены и реализованы два метода сравнения параметров входного сигнала с эталонами, хранящимися в базе данных, для распознавания команд вьетнамской речи.

Практическая ценность диссертации

Предложены новые методы анализа речевого сигнала, новые методы распознавания ограниченного набора речевой команд на вьетнамском языке. Пока фундаментальные исследования по анализу вьетнамской речи ещё не публиковались.

Разработаны программы отображения звукового сигнала и результатов его анализа. Она позволяет экспортировать выходные параметры, полученные в результате анализа в файлы Excel и автоматически строить соответствующие графики. Программы могут быть полезны исследователям речевого сигнала и преподавателям, ведущим занятия в этой области.

Апробация работы

Полученные в работе научные и практические результаты докладывались на двух международных научно-технических конференциях «Информационные средства и технологии» (Москва, 2008 и 2009 г.г.).

Личный вклад диссертанта

Все методы разработаны совместно диссертантом и его руководителем, а алгоритмы и программы, их реализация и проверка работоспособности реализованы лично диссертантом.

Публикации

По материалам диссертации опубликовано 3 печатных работ, в том числе одна в журнале, входящем в список изданий, рекомендованных ВАК РФ. Список опубликованных работ приведён в конце автореферата.

Структура и объём работы

Диссертация состоит из введения, пяти глав, заключения, одного приложения и библиографического списка использованных источников из 47 наименований. Общий объём работы составляет 128 страницы, в том числе 89 рисунков и 10 таблиц.
СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, поставлены цели и задача исследований, сформулированы научная новизна и практическая значимость, приведено краткое содержание работы по главам.

В первой главе обоснованы:

  • Проблема распознавания речи.

  • Обзор методов распознавания речи и их классификации.

  • Знакомство с особенностями вьетнамского языка, влияющими на проблему распознавания вьетнамской речи.

  • Обоснованы конкретизация задачи и схема решения основных проблем диссертационной работы.

Целью исследования является разработка методов анализа речевых сигналов, применительно к распознаванию ограниченного набора команд вьетнамской речи. Исходные данные для разработки темы:

  • словарь для распознавания состоит из 74 команд;

  • каждая команда содержит 1, 2, 3 или 4 вьетнамского слова;

  • команды произносятся слитно.

Из методов анализа выбираем метод спектрального преобразования Фурье. В области обработки звука преобразование Фурье является важным и наиболее часто используемым инструментом.

Вьетнамский язык является односложным языком. Каждое отдельное слово соответствует лишь одному слогу. Система алфавита вьетнамского языка относится к системе латинского языка. Всего вьетнамский алфавит содержит 29 букв:

A, Ă, Â, B, C, D, Đ, E, Ê, G, H, I, K, L, M, N, O, Ô, Ơ, P, Q, R, S, T, U, Ư, V, X, Y.

Во вьетнамском языке существуют надстрочные знаки (над гласным), носителями которых служат гласные, которые придают слову разнообразные тона - мелодии и смысловые значения.

Анализ и распознавание вьетнамской речи имеют свои особенности:

  • слово состоит из одного ударного слога;

  • слова не склоняются и не спрягаются, т.е. не изменяются в разных фразах;

  • щелевой звук может быть лишь в начале слова.

На основе стандартного произношения, можно разделить страну Вьетнам на три основных региона: северный (центр  столица Ханой), средний (центр  город Хуе) и южный (центр  город Хо Ши Мин). Письменность в трёх регионах полностью идентична, но произношение в этих трёх регионах различно. Одно и то же слово имеет особенности произношения. В рамках данной темы, рассматриваем только проблему стандартного произношения в северной области Вьетнама.

Схема решения задачи показана на рисунке:



Блок 1 выполняет функции получения входного сигнала от микрофона через звуковую карту, сохранения в файл и в базу данных для обработки в последующем блоке.

Блок 2 обнаружение речевого сигнала на фоне шума и сегментирование его на слоги, которые соответствуют вьетнамским словам.

Блок 3 используется для следующих функций:

  • сегментация речевого сигнала слова на сегменты голосовых и шипящих звуков речи;

  • голосовые звуки речи разбиваются на интервалы, равные длительности основного тона (квазипериоды);

  • шипящие звуки речи анализируются на интервалах длительностью в 23,2 мс (соответствует 256 отсчётам сигнала при взятии отсчётов с частотой 11025 Гц);

  • анализируются интервалы с помощью преобразования Фурье;

  • вычисляются форманты и их динамика.

  • образуются эталоны для распознавания.

Блок 4 реализует функцию сравнения входной фразы с эталонами, лежащими в базе данных, чтобы получить результат распознавания.

Во второй главе представлен метод получения звукового сигнала от микрофона. Представлен алгоритм обнаружения речи на фоне шума путём сравнения энергетических характеристик шума и речи.

Процесс ввода речевого сигнала в ЭВМ осуществляется параллельно с процессом его обработки. Звуковые данные входа записываются со стандартной частотой 11025 Гц, разрядностью 16 бит, типа моно.

Используется алгоритм для определения крайних точек речи на фоне шума. Он основан на сравнении изменений амплитуд сигнала с амплитудным порогом фонового шума. Определение момента окончания речи определяется из условия, что окончание слова можно принимать на уровне 1/30 от максимальной энергии в пределах 256 отсчётов (или 23 мс.).

Входной сигнал записывается как последовательность отсчётов xi.

X=x0, x1, … , xi, … где i = 0, 1, 2, . . .;

Значения отсчётов изменяются от -215 до 215-1 (-32768  +32767).

Допустим, что в интервале 250мс (2560 отсчётов) с момента включения микрофона имеется только шум (на практике такое допущение обычно выполняется), тогда на этом участке можно определить характеристики шума. Используем 10 первых фреймов F0, F1, …, F9, где Fp=[xpx256+0, xpx256+1,…, xpx256+255]; p=0÷9. Проведём для них быстрое преобразование Фурье (БПФ), получим 10 спектров A0, A1, …, A9, где Ap=[Ap(0), Ap(1),…, Ap(255)]. Из-за симметрии спектра, рассмотрим только Ap=[Ap(0), Ap(1),…, Ap(127)]. Порог для фона шумов  для каждого канала считаем по формуле:



где i = 0, 1, …, 127; α = 0,95; k(α) = 2,33;

Получим 128 значений амплитудного порога шума.

Речевой сигнал разобьём на фреймы по 256 отсчетов. Проведём для них преобразование БПФ. Если в спектре 15 амплитуд превышают порог, то считаем, что в этом фрейме происходит начало слова.

Определим значения спектральных составляющих для всех фреймов после фрейма, соответствующего началу слова (Af(i)), энергию фрейма (Cf) и максимальную энергию фреймов (C).



Если аи, то это соответствует фрейму окончания слова.

Оценка поведения этого алгоритма, проводилась на нескольких вьетнамских словах и словосочетаниях. Ошибок в определении начала и конца речи не было.

В третьей главе, на основе особенностей вьетнамского языка, представлен новый алгоритм сегментации слитно произносимых речевых команд на слоги, соответствующие отдельным словам путём сравнения энергии короткого времени. Алгоритм основан на следующих положениях:

• вьетнамский язык является слоговым языком, каждое отдельное слово соответствует лишь одному слогу;

• каждый слог имеет слоговой пик, где энергия короткого времени сигнала достигает самой большой величины;

• дистанция между двумя ближайшими слоговыми пиками во вьетнамском словосочетании всегда выше 64 × 25 = 1600 отсчетов, что соответствует промежутку времени (1600 / 11025) × 1000 = 145,125 (мс);

• между двумя слоговыми пиками имеется точка, соответствующая границе, которая разделяет слоги. Точка границы соответствует самой малой энергии между пиками. Имеют место случаи, когда точка границы, где энергия сигнала имеет самое малое значение, является точкой окончания глухого шипящего, а не слога. В этом случае, исходя из того, что число переходов через нуль глухого шипящего согласного большое, можно определить точку его начала и эта точка является точкой-границей между слогами. Во вьетнамском языке глухой шипящий согласный всегда стоит в начале слова;

• число переходов через нуль глухого шипящего согласного во вьетнамском языке при принятой частоте дискретизации 11025 Гц всегда больше 17 переходов через нуль на 100 отсчетов.

Алгоритм проверен на 59 командах (словосочетаниях) содержащих 140 слогов произносимых на вьетнамском языке. Среди них были 40 команд, состоящих из двух слогов, 16 команд из 3 слогов и 3 команды из 4 слогов. В результате были разделены словосочетания на слоги, соответствующие отдельным словам.



Граничные точки словосочетания «Hiển thị trang in».

Из-за сложности произношения и существования шум, иногда алгоритм даёт ошибки сегментации слов. В хорошем условии, точность алгоритма достигает до 95%. Чтобы иметь возможность использовать его в условиях с большим уровнем шума, необходимо добавить функции по устранению помех.
  1   2   3

Похожие:

Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи iconИспользование нейросетей для автоматического распознавания и синтеза речи
В данной работе исследуется возможность применения нейросетевых алгоритмов в задаче автоматического распознавания и синтеза речи...
Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи iconРазработка и исследование нейросетевых алгоритмов управления
Работа выполнена на кафедре Систем автоматического управления, Московского государственного технического университета имени Н. Э....
Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи iconИсследование и разработка некоторых графических алгоритмов
Шайдуров А. Г. Исследование и разработка некоторых графических алгоритмов. Квалификационная работа на степень магистра наук по направлению...
Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи icon«Исследование моего голоса»
Цель: Произвести запись стандартных фраз и звуков голосом студента-исследователя и выполнить анализ основных параметров речи с использованием...
Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи iconОтчет по производственно-преддипломной практике разработка и исследование
Целью данной работы является разработка модели автоматизированного распределенного многомодульного комплекса и алгоритмов управления...
Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи iconВ свете задач автоматического синтеза речи
В связи с этим мы хотели бы обратить внимание на несколько крупных проблем, которые связаны с моделированием фразовой просодии в...
Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи iconРазработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи

Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи iconДисциплины освоение систематического и научного подхода к построению программ, который программ важен в первую очередь в случае больших программ со сложными данными
Решения о структурировании данных нельзя принимать без знания алгоритмов, применяемых к этим данным, и наоборот, структура и выбор...
Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи iconИсследование и разработка бионических методов и алгоритмов для решения задач транспортного типа

Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи iconОпыт объединения акустических моделей фонем различных языков для создания многоязычной системы автоматического распознавания речи
Таким образом, выбор языков для исследовательской работы определялся местом проведения исследования и наличием соответствующих баз...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org