Сменить дизайн
Каталог статей
Проекты

Системы документооборота

Главная Wideband speech database for Russian

postheadericon Wideband speech database for Russian

Wideband speech database for Russian

Galunov V.I., Kochanina J.L., Ostroukhov A.V., Soloviev A.N., Evdomakha A.V., Razumikhin D.V. (Auditech, Russia), Tropf H., Hoege H. (Siemens AG, Germany)

Abstract

European project SPEECON is designed to compile speech databases for the most of European languages and some Asian languages. The databases have unified format, recording platform and recording scenarios. The database corpus comprises read, elicited and spontaneous speech. The average longitude of speech in one recording session is 18 minutes. The databases are collected for use in speech driven interfaces for versatile consumer applications. Recordings are made in different acoustic environments (office, car, public place (including street), home). The number of speakers is 600 (50 of them are children). Such characteristics of speakers as age, sex, dialect peculiarities are considered while collecting these databases.

In the framework of SPEECON project a database for Russian language is collected.

 

Введение

В последние годы наблюдается стабильный рост рынка устройств с речевым управлением. Для решения задачи распознавания речи в рамках существующих технологий требуются большие представительные речевые базы данных. Такие базы данных для обучения автоматических распознавателей речи должны давать значительный объём речевого материала с учётом разных возрастных групп дикторов, их пола, регионального диалекта, а также с учётом акустических условий, в которых должны функционировать целевые речевые приложения.

 

Проект Speecon нацелен на пользовательские коммерческие (рыночные) приложения с интерфейсами голосового управления, такие как:

  • мобильные телефоны
  • информационные киоски
  • портативные (карманные) компьютеры
  • автомобильные устройства
  • аудио-/видеоустройства
  • игрушки

 

Современные пользовательские устройства характеризуются включением всё большего количества разных функций, набора которых выходит далеко за пределы первоначальных прототипов. Функционально сближаются такие устройства как мобильные телефоны, портативные компьютеры, информационные устройства, устройства управления бытовой электроникой. В качестве примера можно привести функции ПДА, которые в ближайшем будущем будут осуществляться в этом классе устройств:

  • размещение и приём телефонных звонков
  • загрузка и просмотр видео-файлов
  • навигация и планирование путешествий
  • посылка и приём: SMS, факса, e-mail, голосовых e-mail
  • доступ к базам данных
  • доступ к Интернет
  • игры и управление виртуальными игрушками
  • загрузка и прослушивание аудиофайлов
  • удалённое управление пользовательскими устройствами

 

Одной из серьёзных проблем, возникающих при создании систем реального действия, становится борьба с шумами. Для её решения требуются речевые записи, полученные в реальных акустических условиях. С этой целью было решено проводить записи в различных условиях и детально проработаны сценарии записи.

Acoustic environments

Для получения записей речи, максимально приближенной к той, которую планируется распознавать в реальных акустических условиях, выбрано 5 основных сценариев записи: офис, общественное место, домашнее окружение и автомобиль (для взрослой базы) и домашнее окружение для детской базы. Общественные места включают в себя как закрытые помещения, так и уличные места (на перекрёстке улиц, открытые кафе и т.п.).

Тип акустического окружения характеризуется главным образом величиной фонового шума. Ниже приведены данные.

 

Office

LAeq = 30 – 60dBA

 

 

Entertainment

LAeq = 30 – 65dBA

 

 

 

Public place

LAeq = 45 – 90dBA

 

 

 

Car

LAeq = 28 – 80dBA

 

Children

LAeq = 30 – 70dBA

 

                   

 

Подразумевается, что акустические окружения офис, entertainment, public place, car будут давать вклад для приложений типа мобильных телефонов и PDA. Общественные места – информационные киоски. Entertainment, office, public place, - audio and video equipment, car – automotive products, children – toys.

 

Детская база – небольшая (50 детей). Она представляет собой пробный проект и служит скорее попыткой оценить трудности создания приложений для детских голосов и функциональностью игрушек, чем для реального создания таких приложений.

 

Общая характеристика базы

Дикторы

Всего записывалось 550 взрослых дикторов, 50 детей. Распределение по акустическим окружениям:

Окружение

N

Офис

200

Entertainment

75

Public places

200

Car

75

Child

50

Информанты отбирались из числа непрофессиональных дикторов. При отборе взрослых дикторов учитывалась региональная принадлежность. Выделялось 5 регионов: Москва и Петербург (норма), Север, Средний, Юг, Урал и Сибирь, соблюдалось равномерная представленность этих региональных диалектов. Также примерно равномерное распределение обеспечивалось для возрастных групп и по полу.

Для детей (которых всего 50) эти характеристики не учитывались. Это были дети из школ С-Петербурга.

Характеристика звуковых данных

Записи велись одновременно на 4 канала, 16 кГц, 16-битное квантование.

Среднее время речи в сессии записи (включая паузы) ок. 18 минут.

 

Записывающая платформа и размещение микрофонов

Основой записывающей платформы служит ноутбук с 2-мя PCMCI-звуковыми картами VXPocket. Запись идёт одновременно через 4 канала. 1-й микрофон, размещённый на гарнитуре, направленный. Его расположение имитирует положение микрофона мобильного телефона. Записи данного канала имеют наилучшее отношение сигнал/шум. 2-й микрофон – lavalier for handsfree calling. Он располагается примерно в 10 см. от рта диктора, пониже подбородка. Этот микрофон и его положение являются стандартом для телефонов в исполнении hands free. Эти два микрофона используются для записей во всех окружениях. При записи в окружении office, entertainment, public place в качестве третьего микрофона выступает высококачественный направленный микрофон. Его типичное положение в 0.5-1м от диктора на линии направления голоса. Это логичное решение для приложений типа информационного киоска или PDA. Для записи детей в этом положении используется ненаправленный микрофон Haun, т.к. подразумевается, что дети могут говорить как с лицом игрушки так и нет. 4-й микрофон в окружениях office, entertainment, children – ненаправленный Haun, располагается на расстоянии 2-3 м от диктора – это типичное расстояние для управления голосом аудио-видеотехникой. В окружении public place микрофон располагается на том же расстоянии, что и 3-й, так фоновые шумы делают большее расстояние непригодным для записи. В автомобиле в качестве 3-го и 4-го микрофонов используются микрофоны от AKG и Peiker (стандарт де факто для автомобильных микрофонов), они располагаются на потолке, выше зеркала заднего вида.

 

Сессия записи в среднем длится от 35мин до 1 часа, в зависимости от темпа речи диктора, наличия сильных помех в виде фоновых шумов и т.п.

Второй ноутбук служит экраном для диктора, на котором появляются задания типа: прочитайте предложение, назовите телефонный номер или какой-нибудь вопрос. Запись сигнала начинается и заканчивается по нажатию кнопки оператором записи.

Речевой материал

Содержимое бд состоит из 3 типов: читаемая речь, вызванная речь и спонтанная речь.

Читаемая речь включает команды, фонетически представительные предложения и слова.

В связи с прикладной направленностью БД основной речевой материал образуют команды. Список команд общий для всех баз, собираемых в рамках проекта Speecon, в каждом конкретном языке допускаются небольшие отклонения (введение дополнительных команд и использование синонимов). Во взрослой БД выделяются следующие группы команд: базовые, навигация по каталогам, редактирование, контроль представления, сообщения и Интернет, команды для органайзера, дорожная навигация, автомобильные, аудио-, видеотехника. (всего ок. 500). В детской БД выделяются группы: общие команды, для телефона, для игры с игрушкой. Команды последней группы представляют собой, в основном, целые высказывания (типа: Как тебя зовут? Давай поиграем?) и носят приблизительный характер. Всего команд в детской БД ок. 130. Фонетически представительные предложения и слова призваны сделать распределение фонем в БД близким к естественному и обеспечить наличие редких фонем у каждого диктора. Каждый взрослый читает 30 предложений и 5 слов, ребёнок – 60 предложений и 5 слов.

Вызванная речь состоит из: произнесения номеров телефонов, обозначения времени и дат, последователностей букв (спеллинга), названий городов, личных имён, ответов на простые вопросы.

Спонтанная речь представляет собой небольшой рассказ (0.5 – 1мин) диктора на предлагаемые темы (Сообщение на автоответчике, описание дорожной обстановки, описание любимого фильма, телепередачи, концерта и т.п.). Каждый диктор произносит 10 рассказов.

 

Кроме того в целях дальнейшего использования БД для исследования акустических условий тех или иных условий записи и адаптации полученных записей под требуемые акустические условия в каждой сессии делалась 20 секундная запись фонового шума (без речи) и в каждом новом положении записи делалась запись калибровочных данных (импульсный отклик). Процедура состояла в записи на два измерительных микрофона последовательностей белого и и розового шумов. Динамик устанавливался в положение, соответствующее голове диктора, один микрофон помещался непосредственно у него, второй – в положении 3-го и четвёртого микрофонов. С целью компенсировать движения диктора во время записи делалось по три записи (в тех сценариях, где положения 3-го и 4-го микрофонов не совпадали – по 6 записей): динамик вместе с первым микрофоном устанавливался в трёх позициях на расстоянии до 0.5 метра друг от друга.

 

Обработка материала, аннотирование

Для каждого речевого файла создаётся файл аннотации в расширяемом формате SAM (версии 6.1). В нём помимо информации о звуковых данных, дикторе, сценарии записи, микрофонах и т.п. содержится орфографическая аннотация записи речи. Каждый речевой фрагмент (первый канал, с гарнитурой) прослушивался и делалась орфографическая аннотация. При этом делались  специальные пометами шумов разных типов (от диктора, стационарных и импульсных фоновых). Неразборчивые фрагменты, обрывы записи, а также неправильное произнесение отмечалось особым образом, как это принято в формате SAM.

Фонологическая транскрипция, с использованием машинного фонетического алфавита SAMPA, делалась для общего словаря (файл lexicon.tbl). Он формировался из всех словоформ, записанных в орфографической аннотации. Транскрипция даёт только нормативные варианты (один или несколько). При таком подходе, естественно, часть информации о реальном произнесении того или иного речевого материала диктором теряется.

Формат БД подразумевает создание подробного описания (файл Design.doc), включающего весь речевой материал, описание записывающей платформы, условий записи и т.п. Также формируются таблицы: содержащие информацию о дикторах (номер сессии, пол, возраст, региональный диалект); содержащие полный индекс к содержимому БД (аннотации), информацию о сессиях (номер сессии, сценарий записи, расположение микрофонов и т.п.).

Валидация

Качество и соответствие стандартам баз данных проекта Speecon обеспечивается двухэтапной процедурой валидации, реализуемой независимой фирмой SPEX, созданной специально для осуществления подобных процедур в рамках проектов SpeechDat по сбору речевых баз данных.

При этом проверяется:

  • формат БД,
  • распределение дикторов по полу, возрасту, диалектам, различным сценариям записи,
  • наличие достаточного количества слов-команд, цифр, названий букв, названий улиц и городов, имён собственных и др.,
  • представленность речевого материала на уровне фонем,
  • транскрипция (выборочно, независимым экспертом, носителем данного языка)
  • качество записи (удовлетворение критериев для фонового шума и отношения сигнал/шум),

 

 
Поиск
Язык

RUS | ENG

Продукты
Сообщение

Перед тем, как чего-нибудь пугаться, нужно сначала посмотреть – действительно ли оно такое страшное, а то - зачем зря стараться…

Создание интернет-магазина