Сменить дизайн
Каталог статей
Проекты

Системы документооборота

Главная СИСТЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ С РАЗЛИЧНЫМИ МОДЕЛЯМИ ОРГАНИЗАЦИИ ДИАЛОГА

postheadericon СИСТЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ С РАЗЛИЧНЫМИ МОДЕЛЯМИ ОРГАНИЗАЦИИ ДИАЛОГА

УДК 534.78

Д.В.Разумихин, А.Н.Соловьев

СИСТЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ С РАЗЛИЧНЫМИ МОДЕЛЯМИ ОРГАНИЗАЦИИ ДИАЛОГА

Санкт-Петербургский государственный университет
Университетская наб. 9/11
ООО "ОДИТЕК"
Россия, 195220
Гражданский пр. 22
Тел./факс: 7 (812) 535-95-86
e-mail: auditech@online.ru

В данной работе описываются две системы распознавания речи: система распознавания речи, основанная на распознавании ключевых слов, и система, поддерживающая в основном фатическую, эмотивную и апеллятивную функции вербальной коммуникации и направленная на поддержку коммуникативного акта.

Большинство искусственных систем вербальной коммуникации основано на использовании механизма передачи содержательной информации, в связи с чем обслуживается только информационная функция процесса коммуникации. Как известно, в бытовом общении кроме коммуникативной функции принимают участие и другие, не менее важные функции коммуникации, в которых преобладают механизмы передачи (проверки и перекодировки) кода содержания или качественной передачи информации. В связи с этим было бы интересно рассмотреть возможность создания систем, обслуживающих не только информационную функцию коммуникационного акта (передача сообщения как такового), но и некоторые другие функции.
В данной статье описываются две модели: система распознавания речи, основанная на распознавании ключевых слов, и система, поддерживающая в основном фатическую, эмотивную и отчасти апеллятивную и интердиктивную функции вербальной коммуникации и направленная на поддержку коммуникативного акта.
Такие модели, по нашему мнению, могут найти свое применение, например, в качестве информационных систем с голосовым интерфейсом (информационные киоски), а также в качестве интерактивных игрушек для детей и взрослых.

При подходе к задаче распознавания речи, основывающемся на ключевых словах основная идея заключается в том, чтобы не пытаться восстановить полностью лингвистическое содержание высказывания, а определить его смысл по так называемым ключевым словам из относительно небольшого словаря.
Характеристиками систем, реализующих данный подход являются следующие:
* Имеется конечный алфавит речевых сообщений.
* Распознавание высказывания сводится к выбору канонической фразы, при этом коэффициент ветвления порядка 200.
* База распознавания – ограниченный набор ключевых слов.

В качестве демонстрационной модели была выбрана модель голосового разговорника в ситуации общения клиента гостиницы и администратора [1].
В ней предусмотрена работа с тремя языками: русским, английским и немецким. Для каждой из двух ролей по каждому языку существует около 90 канонических фраз. Словари включают: около 350 слов для русского языка, около 200 слов для английского и немецкого.
Распознавание речи основано на идее распознавания ключевых слов.
Подсистема распознавания речи использует широкополосный входной сигнал, с частотой дискретизации 16000 Гц, квантование 16 бит.
Подсистема распознавания состоит из следующих модулей (этапов):
- сегментация на слова
- параметризация сигнала
- векторное квантование
- сравнение с эталонами - принятие решения
Процедура определения границ слов работает с высказываниями с раздельным произнесением слов с небольшими паузами (порядка 200 мс). Основные трудности решения поставленной задачи обусловлены изменчивостью произнесения и разнообразием используемого словаря, наличием смычек глухих согласных (паузы внутри слов), воздействием нестационарного шума.
Процедура состоит из следующих этапов: трехканальная фильтрация и выбор начала и конца слова по порогам, выставляемым по уровню фонового шума в сигнале (который берётся из наиболее слабых по амплитуде фрагментов высказывания).
Процедура даёт удовлетворительные результаты при следующих условиях:
- частота дискретизации речевого сигнала 16 кГц;
- паузы в начале фразы и между словами составляют не менее 200 мс
- продолжительность каждого слова не менее 40 мс;
- длительность глухих смычек внутри слова не более 190 мс;
- отношение сигнал/шум не менее 15 дБ;
Входной сигнал отфильтрован полосовым фильтром с полосой пропускания 80 – 8000Гц.
Погрешность определения границ слов при указанных условиях составляет, в среднем, 50-80 отсчётов (3-5 мс).
Первичные признаки вычисляются на сегментах сигнала длительностью 10 мс, в частности, берутся следующие:
- полная огибающая, нормированная на энергию основного тона или на максимум энергии в сигнале,
- первая производная огибающей,
- пересечение нулей,
- 16 частотных полос.
Векторное квантование позволяет улучшить почти вдвое результаты дикторонезависимого распознавания. Используются стандартный алгоритм k-средних с некоторой модификацией: расчёт идёт в несколько итераций, на каждой итерации происходит пересчёт коэффициентов метрики, с целью приблизить разбиение на кластеры к разбиению по главным компонентам. В результате получается около 120 кластеров.
Распознавание слов - это определение вероятности того, что произнесённое пользователем слово соответствует определённому слову из заданного списка и выбор лучшего кандидата. Распознаваемое слово представлено в терминах вторичного описания, т.е. как последовательность целых чисел - номеров кластеров. В таком же виде представлена и обучающая выборка. Количество произнесений каждого слова в обучающей выборке было сравнительно небольшим (от 15 до 40, включая словоформы), что не позволило применить сколько-нибудь масштабные статистические процедуры типа цепей Маркова.
Распознаваемое слово сравнивается с каждым эталоном из обучающей выборки с помощью алгоритма dynamic time wrapping, расстояние между кластерами определяется метрикой (чебышевского вида), полученной предварительно на этапе векторного квантования.
Предварительно из эталонной базы исключались эталоны, которые сильно "путались" с другими словами, а также эталоны сильно отличающиеся по длине от средней длины данного слова. Далее, для каждого слова была подсчитана «кластерная вероятность» - вероятность для каждого состояния встретиться в данном слове. Вероятность, с точки зрения «кластерной вероятности» для тестируемого произнесения оказаться представителем данного слова использовалась в модуле распознавания слов как одна из мер близости.
В результате распознавания получается матрица вероятностей, строкам которой соответствуют слова из словаря ключевых слов, столбцам – конкретные словоупотребления в произнесенной фразе. Эта матрица передается на семантический модуль.

Семантический модуль реализует модель ограничений [2].
Семантическая гипотеза – это последовательность слов, соответствующая какой-либо канонической фразе. В качестве слова может выступать особая единица – псевдослово, которое призвано обозначать любое слово, которого нет в словаре распознаваемых слов. Множество всех гипотез – всех возможных цепочек слов – и есть множество ограничений. Основная часть работы семантического модуля заключается в выборе нужных ограничений из некоторого статической таблицы ограничений, сформированной предварительно с помощью некоторой грамматики. Каждая строка этой таблицы соответствует гипотезе (ограничению) – допустимой цепочке слов.
Грамматика задаёт логические отношения на словах и ограничения на линейный порядок слов в высказывании. Для каждой канонической фразы производится запись по определенному формату. Она представляет собой скобочную инфиксную запись дерева логических операций над множеством вхождений слов во фразу, и включает также ограничения на относительный порядок слов в высказывании и ограничение на длину фразы.
Используются стандартные логические операции: И, ИЛИ, НЕ.
Большинство ключевых слов системы выступает в описании отдельными словами. Исключение сделано для количественных числительных: они разбиты на четыре класса (от 1 до 9; 11-19, десятки, сотни) и при описании ключевых фраз, использующих числительные, применяются обозначения данных классов.
На этапе распознавания (приведения фразы к канонической фразе) производятся следующие операции.
Для каждой рассматриваемой канонической фразы выбираются семантические гипотезы, подходящие по длине. Для каждой гипотезы вычисляется мера - перемножением вероятностей слов, взятых из матрицы вероятностей, которая пришла с модуля распознавания слов. То есть пространством элементарных событий мыслятся все возможные цепочки слов, независимые друг от друга, а ограничения определяют ту часть этого пространства, которая семантически осмысленна.
Далее рассматриваются все цепочки (гипотезы), содержащиеся в матрице ограничений. Если вероятность некоторой цепочки слов превышает определённый порог, такая гипотеза запоминается для дальнейшего рассмотрения.
Далее отобранные гипотезы сортируются по убыванию вероятностей. Затем происходит отбрасывание малосущественных гипотез (по энтропии полученного распределения).
В результате часть словоупотреблений в определённых позициях оказываются незадействованными, на их места в матрице вероятностей слов записываются нули, а их сумма для данной позиции слова в высказывании добавляется к вероятности "мусора".
Операции, начиная с выбора семантических гипотез, повторяются в цикле несколько раз с обновлённой матрицей вероятностей словоупотреблений.
Вероятность канонической фразы определяется как наибольшая сумма вероятностей непротиворечивых гипотез.

Существует другая постановка задачи распознавания речи, например в виде организации диалога с интерактивной речевой игрушкой. Это задача реализации неинформационных функций вербальной коммуникации (фатической, апеллятивной, интердиктивной и др.). При этом становится непродуктивным подход "снизу-вверх" – от распознавания минимальных речевых сегментов (фонем), выбор цепочки слов, синтаксический анализ, определение смысла. Т.к. цель речевого сообщения здесь другая: поддержание контакта, побуждение к действию, запрещение деятельности и др. Т.о. задача сводится к распознаванию функции высказывания, а не его лингвистического содержания. На первый план выходят единицы типа речевой сценарий общения, смена реплик, диалог.

Предлагаемая модель искусственной коммуникативной системы [3] поддерживает в основном фатическую, эмотивную и частично апеллятивную и интердиктивную функции вербальной коммуникации и направлена на поддержание коммуникативного акта. Она реализована в виде игрушки – говорящего попугая. Он распознаёт небольшой набор фраз, как-то "понимает" их, выдаёт реакцию в виде фразы из ограниченного набора или молчит – смотря по ситуации.
Подсистема распознавания речи аналогична описанной выше. Единственное отличие заключается в том, что в качестве единицы распознавания выступает не словоупотребление, а фраза, соответственно увеличены пороги для пауз между фразами. Система распознаёт около 60 фраз.
Главное отличие – в модуле организации диалога. В основу категориального словаря диалога положены семантические примитивы, основанные на предопределённых семантических ситуациях. Фразам-высказываниям пользователя и попугая приписываются наборы семантических примитивов.
В процессе построения диалога при выборе фразы учитывается предыстория на некоторую глубину. При выборе продолжения диалога для каждой фразы-кандидата вычисляется мера новой и известной информации данной фразы, по отношению к информации, содержащейся в предыстории. Выбор фразы, продолжающей диалог, определяется интегральной оценкой, которая зависит во времени от мер новой и старой информации. Вид этой зависимости определяет глобальное поведение системы. В общем случае система меняет стратегию: в какие-то периоды ориентируется на поддержание темы диалога (т.е. известную информацию), в другие периоды – меняет тему (задействует новую информацию).
Таким образом, эта модель может использовать стратегию «ведущего» в рамках диалога: переводя диалог к определённой семантической ситуации, навязывая свое мнение или выражая эмоции (например, смех или плач).
С другой стороны, моделирование такого диалога оправдано, если система «не поняла» собеседника. Тогда используется нейтральный сценарий: находясь в рамках заданной ситуации система реализует фатическую функцию для поддержания диалога и проверки канала коммуникации (например, фразы «м-да», «ну и что дальше» и т.п.).

Рассмотренные системы автоматического распознавания речи с соответствующими моделями речевой коммуникации в рамках диалога «человек-машина» имеют различные применения. Система, основанная на распознавании ключевых слов, может применяться там, где первостепенное значение имеет сам факт передачи/получения информации (доминирование информационной функции коммуникации). В моделях диалога, где важен сам факт коммуникации, распознавание сводится к нахождению общей семантической ситуации, общего сценария диалога, т.е. используются системы второго типа.

Л И Т Е Р А Т У Р А

1. Галунов В.И., Галунов Г.В. Вариант системы распознавания речи. // Труды Межд. семинара «Диалог’2000. Комп. лингв. и её приложения» – под ред. А.С.Нариньяни., Протвино, 2000. – Т2., с 80-85.
2. Разумихин Д.В. Разработка системы понимания устной речи в диалоге. // Труды Межд. семинара «Диалог’2001. Комп. лингв. и её приложения» – под ред. А.С.Нариньяни., Аксаково, 2001. – Т2, с 323-329.
3. Soloviev A.N., Victorova K.O., Razumikhin D.V. About using non-informational functions in models of speech communication. // Proc. of International Workshop “Specom’2002. Speech and Computer”. SPb, 2002 – P 27-29.

 
Поиск
Язык

RUS | ENG

Продукты
Сообщение

Перед тем, как чего-нибудь пугаться, нужно сначала посмотреть – действительно ли оно такое страшное, а то - зачем зря стараться…

Создание интернет-магазина