Сменить дизайн
Каталог статей
Проекты

Системы документооборота

Главная Речевые базы данных русского языка в рамках европейских программ

postheadericon Речевые базы данных русского языка в рамках европейских программ

Речевые базы данных русского языка в рамках европейских программ"SPEECHDAT"
Галунов В.И., Кочанина Ю.Л., Остроухов А.В.
"AudiTech" Ltd, Санкт-Петербург
195220 С-Петербург, Гражданский пр., 22, оф. 12-14
e-mail: auditech@online.ru
АННОТАЦИЯ
Настоящий доклад содержит информацию о создании речевых баз данных для русского языка в рамках европейской программы SpeechDat для систем автоматических телефонных служб. В рамках данного проекта создана база данных на 3500 дикторов, охватывающая регионы: Москва & С-Петербург, Северный, Центральный, Южный, Урал и Сибирь.
1. Введение
Речевые базы данных для русского языка создавалась росcийской фирмой “AudiTech” в рамках европейских проектов SpeechDat(II) и SpeechDat(E). Целью проектов, объединенных названием SpeechDat, является сбор речевых баз данных в странах Европы, посредством записи речи в реальных условиях через телефонный канал стандарта ISDN. Базы данных призваны служить общим ресурсом для 20 европейских языков и диалектов и способствовать разработке общих систем телесервиса.
В проектах SpeechDat, профинансированных Европейским союзом, были представлены крупнейшие промышленные и академические организации. Все базы данных, созданные в рамках этих проектов, имеют стандартный дизайн и прошли все этапы валидации.

2. Постановка задачи и области использования баз данных.
В настоящее время разрабатывается много сервисных телесистем, управляемых голосом. Необходимость создания автоматических телефонных служб ни у кого не вызывает сомнения. В многоязычной среде, такой как Европа, пользователь должен иметь доступ к “всеобщему европейскому сервису” на своём родном языке или даже диалекте.
Давление, исходящее от рынка, приводит к быстрому продвижению от прототипа к продукту. Основной целью таких систем становится надежность и многоязычность. Стратегическая важность создания речевых баз данных для построения конкурентоспособных платформ и сервисов для автоматизированной телефонной связи общеизвестна.
Последние достижения в технологии распознавания речи дают возможность для надежного дикторонезависимого распознавания ограниченного числа словарных единиц, произносимых обычными абонентами с различными диалектами. Будущее коммерческих систем - переход от грубого механического диалога к более естественному для пользователя.
Успешный переход к естественному диалогу может быть достигнут только при наличии реальных данных для обучения систем автоматического распознавания речи, т.е. необходим большой объем обучающего речевого материала для конкретного языка. Тренировочный материал должен давать представление о речи дикторов разных возрастных групп с учетом их пола и региональной принадлежности, а также о влиянии типа телефонного аппарата или микрофона и акустического окружения на качество звукового сигнала, получаемого при записи речи через телефонный канал.
Создание ресурсов разговорного языка для управления голосом телефонных служб способствует совершенствованию систем информации и связи. Производство многоязыковых голосовых серверов европейскими предприятиями и создание управляемых голосом сервисных систем способствует занятости в области высоких технологий и потенциал для экспорта. Системы и службы информации и связи могут использоваться всеми заинтересованными европейскими пользователями. В ближайшем будущем европейские компании, работающие в области речевых приложений, будут иметь наибольший успех в сфере телекоммуникаций. Предполагается, что телефонные службы, которые будут частично или полностью автоматизированы при помощи современных речевых технологий, охватят рынок в несколько миллиардов EURO в год в Европе.
Объем речевых баз данных, практическая значимость решаемых с их помощью задач и огромные финансовые потоки, вовлекаемые в сферу разработки соответствующих речевых технологий, явным образом должны повлиять на постановку и решение научных проблем, связанных с анализом структуры речевого сигнала. К сожалению, в настоящий момент нет программы научного использования этих баз, хотя это способствовало бы как развитию научных представлений о речи, так и совершенствованию речевых технологий.

3 Общее описание содержимого баз данных
Созданные в рамках проектов SpeechDat речевые базы данных удовлетворяют следующим требованиям:
* охватывают фонетически богатые слова, слова-команды, словосочетания, числа, цифры, числовые последовательности, фонетически богатые предложения.
* представляют различные стили произнесения (команды, речь-чтение и спонтанная речь);
* фиксируют окружающую акустическую обстановку;
* пригодны для разработки и обучения надёжных систем распознавания для телесервисов.
В речевой базе данных SpeechDat(II) представлено 48 (в базе данных SpeechDat(E) – 50) слов и выражений, как СПОНТАННО ПРОИЗНЕСЕННЫХ, так и ПРОЧИТАННЫХ. Продолжительность записи (диалога между диктором и компьютером) составляет 8-10 минут в зависимости от темпа речи.
Исходный словарь базы данных содержит списки наиболее употребительных слов и команд из компьютерной лексики, цифр и цифровых последовательностей, названий крупных городов и фирм, обозначающих время фраз, дат, денежных единиц, телефонных номеров, номеров кредитных карт, сочетаний “имя-фамилия”, фонетически богатых слов и предложений, спелинг (побуквенное произнесение) слов.
На основе этого словаря были составлены листы-задания для дикторов, содержащие подготовленный материал для чтения, а также ряд вопросов, предполагающих спонтанные ответы. К спонтанной речи относятся ответы на вопросы типа: “Который сейчас час?”, “Где прошло Ваше детство?”, “Назовите Вашу фамилию по буквам” и др. (При желании дикторы могли не сообщать о себе достоверную информацию и называть вымышленные имена и фамилии).
Составленный словарь был ориентирован на людей со средним образованием. Наибольшую трудность представляло чтение предложений (по девять на каждого диктора). Длина фонетически богатых предложений составляла 5-10 слов. Иногда возникали трудности, чаще всего связаные с неправильной постановкой ударения, с не соблюдением интонационной структуры предложения, с невнимательностью. Это приводило к появлению оговорок, повторов, запинок и т.п. Всё перечисленное транскрибировалось и помечалось специальными значками, в соответствии с требованиями стандарта SpeechDat.
Чтение числовых последовательностей (телефонные номера, номера кредитных карт, pin-кодов) никак не регламентировалось. Дикторы читали в удобной для них форме, “связывая” числа в группы или называя их по отдельности. Поэтому в базе представлены все варианты произнесения таких последовательностей.
Спеллинг (побуквенное произнесение слов) вызывало у некоторых дикторов сложности, связанные с тем, что спеллинг в русской речи практически не используется. Многие дикторы не придерживались правильного произнесения букв, принятого в словаре (алфавите), например М - эм. Часть дикторов использовало фонетическое произнесение букв, например М - м; другие использовали разговорный вариант: М - мэ. В результате в произнесительном ЛЕКСИКОНЕ, включающем весь произнесенный речевой материал, были представлены все варианты произнесения: нормативное, распространенное разговорное и фонетическое.

4. Характеристики речевых баз данных.
В русскую речевую базу данных SpeechDat(II) вошли записи речи 1000 дикторов (1000 сессий). Записи производились в Москве и в Санкт-Петербурге - по 500 записей в каждом из городов. Так как важное значение имеет региональный фактор, оказывающий влияние на речь, было решено разбить территорию России на пять диалектных регионов: северный, южный, среднерусский, район Урала и Сибири и Дальний Восток. В речевую базу данных SpeechDat(E) вошли записи 2500 дикторов, выполненнвх в четырех основных регионах: Северный, Центральный, Южный, Урал и Сибирь. Надо заметить, что благодаря радио и телевидению, в крупных городах уменьшается влияние демографического фактора. Речь становиться более правильной, более нормативной. Кроме этого следует отметить фактор чтения. Чтение заставляет людей быть более внимательными, более тщательно произносить слова, чем при спонтанной речи.
Подбор респондентов проводился из числа непрофессиональных дикторов различного социального статуса и различных возрастных групп.
Надо отметить, что проблема поиска дикторов являлась одной из наиболее сложных проблем проекта и вставала практически перед всеми партнерами. Были разработаны методики поиска потенциальных дикторов. Такие крупные компании как Siemens, Philips использовали для этой цели свои собственные периодические журналы, обращаясь к подписчикам с просьбой принять участие в сборе базы данных. Другие использовали почтовые и телефонные службы. Для России этот опыт оказался непригодным. Закрытость нашего общества, нежелание фиксировать свои данные, свой голос приводила к определенным трудностям. В основном мы использовали, так называемую процедуру “снежный ком”. Анкеты для участия в записи передавались друзьям и знакомым, те в свою очередь, своим друзьям и знакомым и т.д. Часть записанного материала оказалась непригодной к использованию (некорректность, невнимательность, высокий уровень помех, издевательские звонки). В среднем это составило около 30% от общего числа дикторов. Технические характеристики записывающей установки были стандартизированы для всех речевых баз данных. Записи производились в автоматическом режиме через реальный цифровой телефонный канал европейского стандарта ISDN. Сигнал имеет формат: 8 бит, 8 кГц, А-закон. Качество соединения и линии связи характеризовалось отношением сигнал/шум. Непригодные по зашумленности записи исключались.
Известно, что поведение говорящего зависит от окружающей обстановки. В шумном помещении люди будут повышать голос, говорить с напряжением. Информация об окружающей обстановке (дом, офис, общественное место, улица) фиксировалась с помощью специальных ключей. Так же учитывалась информация о типе телефонного аппарата (дисковый, кнопочный, радиотелефон и др.). Количество используемых дисковых телефонов с угольным микрофоном в нашей стране остается большим. Качество записи с таких телефонов характеризуется наличием большого количества стационарных и импульсных помех. Это снижает разборчивость речи. Записи при допустимом значении отношения сигнал/шум включались в базу данных.

5. Обработка речевого материала.
Обработка речевого материала выполнялась экспертами по речевой акустике. Она заключалась в многократном прослушивании всех звуковых файлов и их аннотации, которая производилась в соответствии со спецификацией, разработанной для участников проекта SpeechDat(II). Аннотация подразумевала внесение следующей информации в файл-метку:
* орфографическая запись высказывания;
* специальные пометки, указывающие на наличие возможных шумов, оговорок, обрывов записи;
* оценка качества записи;
* данные о дикторе (возраст, пол, региональный акцент);
* тип телефонного аппарата;
* тип акустического окружения.
Из всех слов, произнесенных дикторами разборчиво и без оговорок, был составлен лексикон (файл LEXICON) с указанием частоты встречаемости каждого слова и его фонематической транскрипции. Часть слов приведена с вариантами произнесения (разговорный вариант). Например:
Алексеевна 23 a l' i k s' "e j i v n a a l' i k s' "e v n a
Полученный лексикон насчитывает около 16500 единиц. Фонематическая транскрипция лексикона выполнена в соответствии с системой символов Russian SAMPA (машинно-ориентированного языка).
Кроме этого содержится файл акустического качества каждого речевого сигнала, файл информации о респонденте (пол, возраст, регионально-диалектическая принадлежность), файл содержимого базы данных.
Файл DISIGN содержит полное описание базы, ее словаря, записывающей платформы, полную информацию о лексиконе (особенности произношения, частота встречаемости фонем и др.).
Поддержание стандартов качества баз данных, которые были созданы, обеспечено двумя ступенями валидации, которая выполняется фирмой SPEX (Speech Processing Expertise Centre), созданной в рамках проекта SpeechDat для проверки качества и соответствия стандартам созданных баз данных.

 
Поиск
Язык

RUS | ENG

Продукты
Сообщение

Перед тем, как чего-нибудь пугаться, нужно сначала посмотреть – действительно ли оно такое страшное, а то - зачем зря стараться…

Создание интернет-магазина