Сменить дизайн
Каталог статей
Проекты

Системы документооборота

Главная Синтез и распознавание речи

postheadericon Синтез и распознавание речи

УДК 534.78

В.И.Галунов (1), Б.М.Лобанов (2) Н.Г.Загоруйко (3)

СИНТЕЗ И РАСПОЗНАВАНИЕ РЕЧИ

(попытка построения онтологии).

 

 (1) Санкт-Петербургский Государственный Университет, 7/9, Университетская наб., Санкт-Петербург, 199034, Россия

auditech@online.ru

(2) Институт Проблем Информатики НАНБ, ул.Сурганова 6, Минск, 220012, Беларусь

lobanov@newman.bas-net.by

(3) Институт Математики РАО, пр.Коптюг 4, Новосибирск, 630090, Россия

zag@math.nsc.ru

 

 

В докладе предпринята попытка построения общей структуры онтологии. Даны основные определения элементов онтологии. Приведены примеры некоторых элементов онтологии в области “распознавания и синтеза речи”. Предложен один из возможных вариантов организации совместного построения такой онтологии.

 

Введение

 

Онтологией (О) называется краткое описание структуры предметной области (ПО), которое включает в себя термины (Т), обозначающие объекты и понятия ПО, отношения (R) между терминами и определения (D) этих понятий и отношений [1,2]:

O=<T,R,D>.

В графическом представлении онтология имеет вид пирамидальной сети, вершины которой обозначены терминами ПО, а ребра указывают тип отношения между ними. Верхняя вершина, которая содержит название ПО, связана отношением «часть-целое» с вершинами следующего уровня, которые представляют собой базовые категории данной ПО. Каждая категория связана с вершинами следующего уровня (понятиями) отношениями «часть-целое» или  «частное-общее». Понятия в свою очередь описываются через другие понятия (концепты, характеристики и т.д.). На последнем уровне должны находиться указания на источники с подробным описанием соответствующего элемента онтологии.

Предполагается, что онтология будет связана с системой автоматического извлечения знания из текстов на естественном языке, что накопит и модернизирует базовые знания в данной предметной области. Онтология будет играть роль основного справочника, с помощью которого такая система сможет определить, связан ли документ с данной ПО и касается ли эта категория или концепт документа в целом или его отдельных семантических фрагментов.

Онтология призвана структурировать и упорядочивать знания, а также объединить терминологию данной ПО, что, несомненно, будет полезно для следующих целей:

  - совершенствование организации исследований в данной предметной области;

  - усовершенствование методов обучения;

  - усовершенствование качества поисковых машин.

Онтология может быть разработана только коллективными усилиями экспертов данной  предметной области. В докладе предлагается форма организации коллективной разработки  онтологии РСРС всеми участниками речевого сообщества.

 

1.                  Ядро онтологии

 

Прежде всего, давайте определим, что такое предметная область (ПО). Это такая сфера деятельности людей, в которой рассматриваются материальные или идеальные фрагменты реального мира, наделенные некоторыми пространственно-временными свойствами. Данный вариант онтологии направлен на поддержку создания онтологий в основном в таких предметных областях, которые связаны с анализом, синтезом и преобразованием информации (накопление и измерение данных, обнаружение регулярности (знание), хранение и обработка данных, передача знания, использование знания для распознавания, прогноза и синтеза).

Теперь о структуре ядра, включающей те элементы, которые используются в онтологиях любой предметной области.

 

1.1. Термины (T)

Символическое обозначение любого расположенного в ПО фрагмента (объекта, концепта, процесса и т.д.) будем называть Термин. Примеры терминов: вода, обучение, аренда и т.д. Значения терминов  характеризуются на семантическом уровне, который определяются своими функциями (“чтобы удовлетворить жажду”, "чтобы передать знание”, “чтобы временно использовать”). Каждое значение термина определено набором характеристик из соответствующих фрагментов описанного мира.

В рассмотренном варианте онтологии набор Терминов состоит из набора Категорий, состоящих из наборов Концептов. На языке OWL Термин - абстрактный класс. Категория - конкретный класс, являющийся наследником Термина. Категория состоит из набора значений - объектов (Концептов).

При определении термина желательно опираться на список других терминов, которые встречаются в литературе в данной ПО и являются синонимически близким для данного термина.

  

1.2. Основные категории

Термины, которые используются в онтологиях разных ПО, относятся к основным категориям. Если предметные области связаны с восприятием, анализом, обработкой, хранением и передачей данных, то общие категории для них будут следующее:

- Наблюдаемые объекты

- Наблюдаемые свойства

- Типы задач

- Знания и гипотезы

- Методы решения задач

- Примеры решенных задач

 

1.2.1. Наблюдаемые объекты

Данная категория представляет наблюдаемые и исследованные объекты в ПО. Фрагмент, расположенный в данной ПО (объект, характеристика, процесс, явление и т.д.), свойства которого измерены и установлены в результате наблюдения, используются при решении различных задач в данной ПО. Примерами наблюдаемых объектов могут быть "пациенты", "землетрясения", “речевые сигналы “, “погодные условия” и т.д.

 

1.2.2. Наблюдаемые свойства

Эта категория представляет в онтологии свойства (характеристики), которые наблюдаемы и изучаемы для объектов в данной ПО. Она содержит средства и методы для определения значений измеряемых характеристик, и средства представления полученных результатов в символических или графических формах. Существуют широко известные устройства и методы, не требующие детального описания, которые могут быть ограниченны своими названиями (например, "микрофон", "вольтметр", "осциллограф"). В других случаях и инструкциях может потребоваться более детальное описание.

 

1.2.3. Типы Задач

Данная категория объединяет общие проблемы (и задачи), которые отражают цели и подцели в каждой ПО. Они должны быть описаны с той степенью точности, которая необходима для их однозначного понимания экспертами в данной ПО. Разные задачи отличаются друг от друга следующими элементами:

Z = <G, O, D, S, F>.

Где:

G - описание цели в терминах приемленных для данных характеристик;

O - средства наблюдения текущих значений этих характеристик;

D - средства влияния или воздействия на значения характеристик;

S – способы выбора необходимых воздействий на характеристики;

F - критерии для определения момента достижения цели.

 

1.2.4. Знания и гипотезы

В этой части - кратко описаны знания и гипотезы, которые используются при описании и решении задач в данной ПО. Описание должно сопровождаться ссылками на источники, которые содержат детальную информацию относительно упомянутых вопросов.

 

1.2.5. Методы решения задач

В этой части описаны методы, используемые для решения различных задач данной ПО. Для каждого метода и каждой задачи с отношением типа «применяется для», «используется в» и т.д. делаются ссылки на первичные источники с детальным описанием методов.

 

1.2.6. Примеры решенных задач.

Примеры задач различного типа, которые были решены или решаются в настоящее время. Приводятся публикации, содержащие более детальную информацию относительно постановки и решения этих задач.

 

1.3. Концепты

На следующем иерархическом уровне онтологии – уровне Категорий – термины, которые определяют семантические единицы (Концепты) в данной ПО. В каждой ПО используются определенные Концепты. В онтологическом графе концепты - узлы связанные с узлами Категорий как отношение классов "частные - общие". Концепты могут быть определены либо непосредственно на естественном языке, либо с помощью найденных Концептов. При описании Концептов различных уровней необходимо определить соответствующие отношения между ними.

 

 

 

2. Отношения (R)

Вид связи между терминами, имеющими отношение к характеру зависимости, типу влияния, факта применимости и т.д. В области информационных технологий самое большое распределение имеет отношения двух классов: "объединение" и "использование".

 

2.1. Связность

Это основное название отношения для всего вида отношений между концептами.

 

2.2. Объединение

Это отношение выражает семантику ситуации, в которой один концепт устанавливает другой. Группа "Объединение" включает в себя отношения, определяющие связи типа "содержится", “частный – общий”, "принадлежит", “часть” и т.д.

 

2.3. Использование

Отношение "Использование" выражает семантику ситуации, в котором Концепт использует другой Концепт Группа "Использование" включает отношения, определяющие связи типа, "используется для ”, “является применимым к ”, “предназначен для” и т.д.

 

2.4. Другие отношения

В различных случаях может требоваться и другие наборы отношений: упоминание, решение, реализация и т.д.

 

3. Онтология предметной области “распознавание и синтез речи”

Используя структуру онтологии описанную выше, мы в общих чертах опишем возможность заполнения ПО, связанной с распознаванием и синтезом речи [3]. Определение каждой основной категории описано набором концептов. Мы приведем список этих концептов.

 

Концепты Категории 1 “Наблюдаемые Объекты”

1.1. сигналы речи

1.2. дикторы

1.3. эмоциональный и физиологический статус диктора

1.4. окружающая среда

 

Концепты Категории 2 “Наблюдаемые свойства”

2.1. Приемники звука.

2.2. Средства предварительной обработки.

2.3. Отобранные характеристики.

2.4. Способы графического отображения.

2.5. Протоколы наблюдения.

 

Концепты Категории 3 “Типы решаемых задач”

3.1. Системы распознавания речи

   3.1.1. Системы распознавания и понимания смысла высказывания.

   3.1.2. Системы распознавания эмоционального и физиологического статуса говорящего.

3.2 Системы верификации и идентификации речи.

   3.2.1. Системы верификации диктора.

   3.2.2. Системы  идентификации диктора.

3.3. Системы синтеза сигналов речи

   3.3.1. Системы синтеза текст-речь.

   3.3.2. Системы клонирования (дублирования) голоса диктора.

 

Концепты Категории 4. Знания и гипотезы.

4.1. Модели человеческого речепроизводства и системы восприятия.

4.2. Модели речевой коммуникации.

4.3. Физиология слуховой системы.

4.4. Психоакустика.

4.5. Фонетика, морфология, синтаксис, семантика.

4.6. Меры близости в пространстве речевых характеристик сигнала.

4.7. Правила и критерии принятия решений в распознавании.

4.8. Эргономические системы речи.

4.9. Взаимосвязь между всеми областями научных знаний и гипотез.

 

Концепты Категории 5. Методы решения задачи

5.1. Математические методы распознавания

   5.1.1. Методы принятия решения.

   5.1.2. Методы выбора информативных особенности.

   5.1.3. Методы автоматической классификации.

5.2. Методы измерения расстояний между объектами

   5.2.1. Типы измерения масштабов.

   5.2.2. Меры близости между объектами.

5.3. Методы анализа речевых сигналов

   5.3.1. Спектральный анализ.

   5.3.2. Кепстральный анализ.

   5.3.3. Импульсный анализ.

   5.3.4. Рекурсивный анализ.

   5.3.5. На основе моделей восприятия речи.

5.4. Методы синтеза речевых сигналов

   5.4.1. Компилятивный синтез.

   5.4.2. Формантный синтез.

   5.4.3. Синтез на моделях речепроизводства.

5.5. Методы понимания речи

   5.5.1. Методы структурного анализа.

   5.5.2. Методы семантического анализа.

   5.5.3. Методы прагматического анализ.

   5.5.4. Методы организации диалога.

 

Концепты Категории 6. Примеры решенных задач

6.1. Системы распознавания

   6.1.1. Распознавание изолированных команд

   6.1.2. Распознавание слитной речи

   6.1.3. Распознавание диктора

   6.1.4. Распознавание эмоционального статуса говорящего.

6.2. Системы синтеза

   6.2.1. Компилятивный синтез

   6.2.2. Формантный синтез

   6.2.3. Синтез, основанный на моделях речевого трактата человека

   6.2.4. Клонирование голоса

 

Определения концептов

Дадим краткие определения концептов, включенных в некоторые основные категории. Для того чтобы облегчить работу программ автоматического поиска и извлечения семантической информации из текстов на естественном языке, необходимо вывести содержимое каждой концепции в текстовом виде. В квадратных скобках должны приводятся ссылки на литературу.

 

Категория 1. Наблюдаемые объекты

Концепт 1.1. Сигналы речи - колебания звукового давления на входе приемника, произведенного естественными или искусственными речевыми механизмами. В зависимости от продолжительности наблюдаемого участка сигнала речи ставится задача анализа и синтеза сегментов речи: фонем, слогов, слова или словосочетания. Предполагается изучение сигналов типа пения и шепота и т.д.

 Данные в текстовом виде: речевой сигнал, звуки речи, речевой материала, тип звука, фонемы, слоги, слова, саундтрек, пение, шепот, и т.д.

 

Концепт 1.2. Дикторы - люди, речевой сигнал которых подлежит анализированию (распознавание, понимание, верификация и т.д.) или синтез. Дикторов можно описать следующими характеристиками: пол, возраст, количество дикторов, обучены или необучены, присутствует ли акцент, качество дикции, дефекты речи и т.д.

 Данные в текстовом виде: обычный диктор, профессиональный ведущий, речь оператора, женский голос, мужской голос, детский голос, один диктор, несколько дикторов, обученный диктор, носитель языка, акцент, дикция, нормальная речь, речь с дефектами, и т.д.

 

Категория 3. Типы решаемых задач

Концепт 3.1. Системы распознавания речевых сигналов

    3.1.1. Системы распознавания и понимания смысла высказывания.

а) Системы распознавания небольшого числа раздельно сказанных слов (от 1 до 30-40 слов), которые объединены по следующим характеристикам (продолжительность, средняя громкость, средний спектр и т.д.).

b) Системы распознавания со словарями среднего объема (десятки и сотни слов), которые характеризуются отдельными частями слова: сегменты, типы звуков, слоги.

c) Системы распознавания слов в потоке речи.

Конкретные системы отличаются друг от друга требуемой надежностью, возможность адаптации диктору и к новому словарю, характеристикам окружающей среды и т.д.

d) Системы распознавания фонем в слитной речи.

Предназначены для распознавания фонем в потоке слитной речи на неограниченном словаре (автоматическая стенография).

e) Системы понимания речи.

Системы с разным объемом словаря, в котором для увеличения надежности распознавания используется априорное знание не только фонетики, грамматики и синтаксиса, но также и семиотические аспекты речевой коммуникации.

  Данные в текстовом виде: распознавание команд, изолированных слов, слитной речи, речевое управление, автоматическая стенография, объем словаря, надежность, адаптация к диктору, и т.д.

Концепт 3.2 Системы верификации и идентификации речи.

    3.2.1. Системы верификации диктора.

    3.2.2. Системы идентификации диктора.

 Данные в текстовом виде: верификация диктора, идентификация, индивидуальные характеристики речи, и т.д.

Концепт 3.3 Системы синтеза речевых сигналов

    3.3.1. системы синтеза речи по тексту.

Предназначены для автоматического синтеза речи по тексту. Основные требования - высокая четкость и естественность речевого сигнала. Используются следующая цепочка: “текст - фонетическая транскрипция - команды на элементах генерации звуковой волны”. Такими элементами параметров для генерации могут служить модели речепроизводства или короткие части речевых сигналов (аллофоны, дифоны, трифоны и т.д.).

    3.3.2. системы клонирования голоса диктора.

Эти системы должны воспроизводить определенные особенности речи конкретного человека (высота основного тона, тембра, интенсивность, дикция и т.д.). Таким образом, возможно использовать либо короткие части речевого сигнала человека, либо точную модель речевого тракта.

  Данные в текстовом виде: синтез речи, синтезатор, механизмы речи, микроволновый синтез, компилятивный синтез, модель речепроизводства, интонационный контур, и т.д.

 

Категория 5. Методы решения задачи

Концепт 5.1. Математические методы в моделях распознавания

   5.1.1. Методы получения функции принятия решения

Статистическое принятие решения. Логическое принятие решения. Алгебраическое принятие решения. Эвристическое принятия решения.

   5.1.2. Методы выбора информативных особенностей.

Метод случайного поиска с адаптацией. Направленный таксономический поиск признаков. Метод сеток (алгоритм AdDel).

   5.1.3. Методы автоматической классификации

Алгоритмы таксономии. Алгоритмы класса FOREL и KRAB.

  Данные в текстовом виде: правила принятия решения, функция принятия решения, обучение к распознаванию, выбор признаков, таксономии.

 

Как организовать развитие онтологии?

Авторы не претендуют на неоспоримость идеи построения онтологии такого сложного научного направления как область распознавания и синтеза речи. Фрагмент онтологии, описанной выше - только эскиз проекта. Онтология, только тогда будет востребована, если это будет результат совместной работы большого числа экспертов в данной предметной области. Данный текст нужно понимать как приглашение экспертов, работающих в области речевых технологий, принять участие в совместном развитии онтологии непосредственно в своей специализации.

Элементы всех уровней онтологии, начиная с высшего, являются объектами для их развития и разработки. Для того чтобы определить, на каком уровне развития необходимо остановиться, мы должны принять во внимание то, что онтология не должна быть полным детальным справочником или энциклопедией относительно всех вопросов в данной ПО. Она должна отражать основные элементы, характеризующие данную ПО, и указать источники, которые содержат более подробную информацию.

Организацией такой совместной работы может послужить, например, инициативная рабочая группа (WG) квалифицированных экспертов, представляющих различные сферы в определенной ПО. Эта группа создается на общественных началах и должна предположительно выполнять следующие функции:

 1. Формулировка проблем, требующих совместного решения.

 2. Рассылка своих идей (посредством, например, электронной почты или в форуме на информационном речевом портале) всем желающим, участвовавшим в развитии онтологии ("коллективу разработчиков").

 3. Отбор и обработка предложенных вариантов решения задач.

 4. Рассылка этих вариантов всем членам разработчикам онтологии для дальнейшего обсуждения.

 5. Определение заключительных вариантов на основе совместного решения и анонсирование на речевом портале.

 

Работы должны проводиться и в направлении написания программ, которые должны помочь экспертам создавать и исследовать ПО онтологии. Мы надеемся, что совместные усилия сообщества «речевиков» позволит создать одну из первых онтологии в этой сложной научной области.

 

Л И Т Е Р А Т У РА

 

1. Kleschev A.S., Artemieva I.K. Mathematical models of ontology of subject domains. Ch.1. Existing approaches to definition of concept “ontology”. Scientific-Technical Information, Series 2. №2, 2001, pp.20-26. (in Russian)

2. Gruber T.R. Toward Principles for the Design of Ontology Used for Knowledge Sharing // Int. J. of Human-Computer Studies.-1994.-Vol. 43 (5/6)-P.907-928.

3. Survey of the state of the art in human language technology Ed. Chif Roland Cole, Cambridge University Press, 1997

 
Поиск
Язык

RUS | ENG

Продукты
Сообщение

Перед тем, как чего-нибудь пугаться, нужно сначала посмотреть – действительно ли оно такое страшное, а то - зачем зря стараться…

Создание интернет-магазина