Использование технологий распознавания звуковых образов в мультимедийных приложениях



Дата10.01.2013
Размер75.4 Kb.
ТипДокументы
Использование технологий распознавания звуковых образов в мультимедийных приложениях.

И. Б. Тампель, М. Ю. Татарникова,

“Центр Речевых Технологий”, Санкт-Петербург,

E-mail: tatmar@speechpro.com
Распознавание звуковых образов - традиционно принадлежит к наиболее перспективным направлениям совершенствования мультимедийных технологий. Центр Речевых Технологий имеет большой опыт использования средств распознавания аудио сигналов в различных мультимедийных приложениях.

Использование технологий распознавания команд в системах управления позволяет максимально упростить работу с системой, ускорить и облегчить доступ к данным в информационных базах. Примером использования могут служить такие разработки Центра Речевых Технологий, как: “VoiceCom SDK”, Система “Voice Navigator” или cистема управления бытовым оборудованием “Труффальдино”. Библитека “VoiceCom” позволяет организовать проверку произношения слов в системах обучения иностранным языкам. “Voice Navigator” обеспечивает поиск и запуск приложений Windows по голосовой команде, а система “Труффальдино” позволяет управлять с помощью голоса домашним оборудованием, например, переключать каналы телевизора или включать свет. Такие системы не только вносят комфорт и разнообразие в нашу жизнь, но и облегчают жизнь людей с ограниченными возможностями движения.

Технология распознавания голоса, реализованная в системе Voice Key SDK, используется в системах защиты информации.

Алгоритм распознавания музыкальных фрагментов в Системе контроля FM радио каналов “Music Spotting”, предназначен для контроля проигрывания рекламных роликов со стороны рекламодателей и контроля воспроизведения музыкальных произведений со стороны владельцев авторских прав по FM радиоканалам и на телевидении.
Практическое использование технологии распознавания речи

в системах управления.
Практическое применение технологии распознавания речи реализовано в программных продуктах Центра Речевых технологий: “Voice Navigator” и “Труфальдино”. Программа “VoiceNavigator” предназначена для управления приложениями Windows с помощью голосовых команд. Осуществляет мгновенный доступ к любому приложению Windows с помощью голосовой команды. Позволяет легко открывать необходимое приложение вместо длительного и скучного процесса поиска нужных файлов в различных системных директориях компьютера. Может использоваться для домашнего или офисного ПК. Помогает работе с ПК людям с различными патологиями (например: зрения и др.) Облегчает работу с ПК в ситуациях, когда руки пользователя заняты.

Программа легко обучается на любой голос, поэтому распознает команды произнесенные на любом языке. Имеет функцию голосового ответа-подтверждения того, что программа распознала команду и готова выполнить ее. Программа начинает слышать и готова выполнять команды после произнесения ключевого слова, что помогает защитить ее от ложных срабатываний.


Система автоматизации домашнего быта “Труффальдино” предназначена для управления бытовой и офисной техникой с помощью голосовых команд. Система “Труффальдино” устанавливается на домашний компьютер, распознает голосовые команды и по команде запускает процедуры, управляющие освещением или бытовыми приборами.

Система “Труффальдино” позволяет осуществлять следующие функции:

- Управлять с помощью голосовых команд любой бытовой техникой, имеющей инфракрасное управление. Например: телевизор, видеомагнитофон, аудиотехника, кондиционер. Система, установленная на персональный компьютер, с помощью стандартной звуковой карты и радио микрофона, воспринимает речевую команду, распознает ее и передает ее блоку инфракрасного управления, подключенному к компьютеру. Блок инфракрасного управления может включать/выключать телевизор, переключать каналы телевизора, отключать звук, и т. д. Система позволяет включать/выключать любой бытовой прибор или освещение, при подключении их к специальной розетке с инфракрасным управлением. Существует возможность передавать инфракрасное управление в соседнюю комнату.

- Управлять домашним телефонным справочником. Т.е. в систему встроена возможность ведения телефонной книги. При произнесении имени требуемого абонента, система осуществляет автоматический набор номера телефона через модем, подключенный к домашнему компьютеру.

- Управлять домашним компьютером. Система осуществляет автоматический запуск любого приложения Windows по речевой команде подобно “Voice Navigator”.

- Создавать макросы, то есть цепочки команд, на заданную тему. Например, по речевой команде “Аврал” можно выключить все приборы, или по команде “Тишина” отключить звук у всех приборов.

Система распознает десятки разнообразных речевых команд. Активизируется после произнесения ключевого слова, это помогает защитить систему от возможных ложных срабатываний. Работает в режиме распознавания для любого языка, настраивается на любой новый голос. Владеет функцией речевого ответа для подтверждения принятой команды, что может превратить общение с системой в увлекательную игру.

Система реализована на базе компьютера типа Pentium 166 и выше, работает в среде Windows 95/98.

Система “Труффальдино” помогает облегчить повседневную жизнь, создает хорошее настроение, сохраняет время. Кроме того, совершенно необходима людям с ограниченными физическими возможностями.
Возможность создания программных приложений

с голосовым управлением.
Центр Речевых Технологий предоставляет практическую возможность пользователям для создания собственных разработок, использующих голосовое управление. Технология распознавания голосовых команд, оформленная в виде динамической библиотеки VoiceCom SDK, может использоваться в любых приложениях, работающих в системах MS Windows 9x/ME/NT/2000. Основными областями применения являются:

  • Системы, осуществляющие управление оборудованием с помощью голоса,

  • Обучающие системы,

  • Системы, организующие речевой запрос к базам данных, возможно по телефону,

  • Автономные устройства, работающие независимо от компьютера, с голосовыми функциями.

Технология распознавания позволяет организовать одновременное распознавание 100-200 команд в дикторозависимом режиме. То есть, пользователь должен обучить каждую команду на свой голос, прежде чем система начнет работать. И 30-50 команд в дикторонезависимом режиме, но только для неизменного набора команд, для которого предварительно собирается база эталонов этих команд. При этом пользователю не обязательно обучать систему перед началом работы. При правильном структурировании использования словаря, то есть когда на каждом уровне доступно 20-30 команд, возможно использование словарей практически неограниченного объема.

Достоинствами технологии является высокое быстродействие алгоритмов, небольшие требования к памяти, устойчивость к шумам, независимость от языков и диалектов.

Динамическая библиотека это 32 разрядная DLL, реализованная на Visual C++. Алгоритм успешно работает на персональных компьютерах Pentium 100 или выше, RAM 16 Mб, оснащенных стандартной звуковой картой и микрофоном.

Применение технологии распознавания голоса

в системах безопасности.
Технология распознавания голоса, реализованная в виде динамической библиотеки Voice Key SDK может использоваться в любых приложениях, работающих в системах MS Windows 9x/ME/NT/2000.

Областями применения являются системы, требующие обеспечения защиты информации. Например: доступ в некоторые Internet системы, банковские и коммерческие системы, доступ к корпоративным и информационным базам данных, системы ограничения доступа к компьютерным ресурсам. Преимуществом систем автоматической верификации по голосу является то, что пользователю нет необходимости запоминать пароль.

Технология распознавания голоса, разработанная в ЦРТ, независима от языка, имеет хорошую устойчивость к шумам, может быть легко объединена с другими технологиями, обеспечивающими безопасность, включая биометрические технологии.
Система контроля радио и звуковых каналов телевидения

Music Spotting”.
Система контроля звуковых каналов “Music Spotting”, предназначена для контроля проигрывания рекламных роликов со стороны рекламодателей и контроля воспроизведения музыкальных произведений со стороны владельцев авторских прав по радиоканалам, звуковым каналам телевидения и музыкальным файлам Internet.

Для создания эталона программа записывает фрагменты или произведение целиком с CD, из файла или с линейного входа звуковой карты и выделяет ряд информативных параметров. Благодаря эффективному алгоритму сжатия, объем эталонов 10 мин записи составляет всего около 114 К. Быстрый алгоритм сравнения, позволяет проводить контроль большого количества произведений с использованием компьютеров небольшой мощности. В экспериментах контроль шестнадцати произведений общим объемом 18мин. занимал на компьютере с процессором Pentium MMX 166 MHz около 10% процессорного времени. Таким образом, несложно подсчитать, что компьютеры 166-200 МHz могут контролировать произведения общей продолжительностью 3 часа в реальном времени. Принимая среднюю длину произведения 3 мин, получаем общее количество контролируемых произведений 60. На вполне доступных компьютерах с быстродействием в 5 раз выше можно контролировать до 300 произведений, что составляет более 99% текущего репертуара большинства FM станций. Можно использовать быстродействие и другим способом – контролировать 60 произведений на пяти радиоканалах.

С помощью соответствующего выбора параметров можно выбирать оптимальные для данной задачи соотношения вероятностей ложной тревоги, пропуска цели и скорости поиска. Так, для поиска коротких фрагментов необходимо установить меньшее сжатие, короткое окно анализа и малый шаг, что снизит скорость поиска, но сделает поиск высоконадежным. Для поиска музыкальных произведений продолжительностью в несколько минут следует использовать максимальное сжатие и увеличить шаг анализа, используя большую информацию, содержащуюся в длинном сигнале и тем самым значительно увеличить скорость поиска без увеличения вероятности пропуска цели.

Высокая скорость алгоритма – не единственное отличие от существующих аналогов, благодаря тому, что для создания эталона можно использовать произведение целиком, можно контролировать несанкционированное использование любых фрагментов музыкальных произведений в качестве заставок и в рекламных роликах.

Похожие:

Использование технологий распознавания звуковых образов в мультимедийных приложениях iconЭффективность управления процессом распознавания образов в реальном времени
Предложен подход к оценке производительности и достоверности распознавания образов с использованием однородной цепи Маркова
Использование технологий распознавания звуковых образов в мультимедийных приложениях iconПримерная рабочая программа по дисциплине "Распознавание образов/(по выбору)" для подготовки студентов по магистерской программе «Информационное и программное обеспечение автоматизированных систем»
Целью курса является ознакомление студентов с современным состоянием проблемы распознавания и основными методами решения задачи распознавания...
Использование технологий распознавания звуковых образов в мультимедийных приложениях iconПрограмма учебной дисциплины Алгоритмические основы мультимедийных технологий Направление подготовки
Целью освоения дисциплины «Алгоритмические основы мультимедийных технологий» является изучение алгоритмов обработки, кодирования...
Использование технологий распознавания звуковых образов в мультимедийных приложениях iconРекомендация мсэ-r bt. 1788 Методика для субъективной оценки качества видеоизображения в мультимедийных приложениях
Методика для субъективной оценки качества видеоизображения в мультимедийных приложениях
Использование технологий распознавания звуковых образов в мультимедийных приложениях iconМк-26-9 Управление процессом распознавания образов на основе оценки его сложности
Поэтому имеет большое значение нахождение оптимума в процессе распознавания, который с одной стороны обеспечивает требуемый уровень...
Использование технологий распознавания звуковых образов в мультимедийных приложениях iconОсновные определения курса «Распознавание Образов»
Множество объектов задачи распознавания – множество всех объектов, которые могут теоретически встретиться в конкретной задаче их...
Использование технологий распознавания звуковых образов в мультимедийных приложениях iconЭволюционная стратегия управления в задачах распознавания образов кравчук И. С., Тихоглаз Ю. С
Статья посвящена решению одной из наиболее важных задач оптимизации процессов обработки информации – разработке алгоритма формирования...
Использование технологий распознавания звуковых образов в мультимедийных приложениях iconОсновы новой теории признаков распознавания образов с позиций стохастической геометрии и функционального анализа
Федотов Н. Г. Основы новой теории признаков распознавания образов с позиций стохастической геометрии и функционального анализа. //...
Использование технологий распознавания звуковых образов в мультимедийных приложениях iconПрограмма дисциплины «материаловедение»
Пассивный (чтение лекций, самостоятельная работа студентов), активный (практические занятия, деловые игры, ситуационные задачи),...
Использование технологий распознавания звуковых образов в мультимедийных приложениях iconРабочая программа дисциплины Анализ данных и распознавание образов Направление подготовки Error: Reference source not found
Охватывает круг вопросов, связанных с изучением принципов, моделей, методов, техники, аппарата и алгоритм решения задач в области...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org