на главную POISK-IT
 СобытияО компанииПродукцияРешенияТехнологииКонтактыПубликации
poisk-it
На главную Публикации

Метод настройки на диктора для систем автоматического распознавания речи, журнал "Искусственный интелект" №2 - 2007 год

Проблема дикторонезависимости систем распознавания речи является ключевой в общей задаче, если руководствоваться бионическими принципами организации слухового восприятия человека. Существующие в настоящее время методы настройки на диктора можно разбить на три основные группы. Первая группа методов нацелена на получение параметров речевого тракта. Считается, что его форма определяет тип генерируемого звука, и она не зависит от диктора. Вторая группа методов использует механизм формирования шаблонных фонетических элементов для каждого нового диктора отдельно. Процесс настройки на диктора заключается в прочтении заданных фраз новым диктором в микрофон и коррекцией необходимых параметров системы, отвечающих за смену диктора. Если при этом сохранять предыдущие настройки, можно формировать базу дикторов. И, наконец, третий путь обеспечения дикторонезависимости заключается в том, что система настраивается еще в процессе создания на разные группы дикторов, объединенных по некоторому критерию, например, мужской голос – женский. Процесс настройки на нужную группу, уже в пользовательском режиме, происходит очень просто, например, система просит произнести некоторую фразу, и по максимуму результата распознавания, делается вывод о принадлежности текущего диктора к той или иной группе.

Существует еще один класс методов обеспечения дикторонезависимости, основанный на поиске инвариантных отношений между фонетическими элементами и характеристиками голоса диктора. Этот класс методов ищет акустические закономерности между голосом диктора, фонетическими элементами и параметрами речевого сигнала. Однако, пока ничего не известно о каких-либо существенных результатах на этом пути.

Необходимо отметить принятое в работе предположение о том, что человек в процессе распознавания речи осуществляет настройку на голос диктора. Этот процесс происходит на подсознательном уровне, автоматически, и, как правило, не обнаруживается сознанием. Косвенным доказательством этого служит способность человека выделять речевой сигнал нужного диктора в достаточно зашумленных условиях. Человек легко может перестроиться с одного голоса на другой, не меняя положение головы (слуховых датчиков). Замечено, что голос знакомого человека распознается легче в зашумленных условиях, нежели голос незнакомого человека. Всё это подобно тому, как профессиональный музыкант в состоянии выделить отдельную партию скрипки из всего оркестра благодаря тому, что он знает, как она звучит, он еще не слышит ее, ноуже имеет набор слуховых шаблонов, в которые встраивается звук от скрипки. Таким образом, музыкант реализует настройку на скрипку. Это полностью соответствует современным представлениям о функционировании коры головного мозга человека в процессе распознавания образов вообще. Поэтому проблема настройки на диктора систем распознавания речи носит не только характер практического интереса в том, чтобы настроиться на определенного диктора, но и касается основ функционирования алгоритмов распознавания на всех уровнях анализа.

Цель работы состоит в том, чтобы рассмотреть свойства механизма обеспечения дикторонезависимости восприятия речи у человека и предложить методику его реализации в технических системах распознавания речи.

В контексте поставленной цели следует выделить две характерные для человека особенности:

  1. Автоматическая идентификация диктора с одновременной настройкой на него.
  2. Способность выделять полезный речевой сигнал из акустического фона среды.

В процессе распознавания речи выполняется идентификация диктора, одновременно происходит настройка слуховой системы на восприятие определенного голоса. Дальше работает известный, так называемый механизм маскирования. Суть его заключается в динамическом изменении множества активных шаблонов, сообразно ситуации и акустической среде, в которые встраиваются (или не встраиваются) входные звуковые образы.

Еще одним важным свойством организации слухового восприятия человека является соматотопическое строение проекционных отделов височной коры головного мозга. Это означает, что перцептивно близкие слуховые образы отображаются в пространственно близкие нейронные структуры проекционных отделов.

Учитывая вышесказанное, можно предложить следующую структуру вычислительной среды: пространство признаков с определенными в нём двумя типами отношений. Первое метрическое, второе – ассоциативная связанность элементов пространства, которые представляют собой нейроподобные элементы, реагирующие на определенные акустические события. В качестве таких элементов целесообразно взять нейрон с радиально-базисной функцией активации.

Введём понятие акустико-речевого пространства (АРП)диктора. Определим его как область признакового пространства, состоящая из окрестностей точек с координатами векторов параметров речевого сигнала данного диктора. АРП описывается множеством нейроподобных радиально-базисных элементов, связанных друг с другом ассоциативными связями. Фактически, РБЭ представляет собой гиперсферу в многомерном пространстве. Центры гиперсфер в АРП совпадают с центрами кластеров, полученных при кластеризации векторов параметров речевого материала конкретного диктора. В итоге, можно выделить три свойства АРП:

  1. Соматотопичность.
  2. Принадлежность конкретному диктору.
  3. Ассоциативные связи.

Рассмотрим, каким образом в рамках описанной вычислительной среды (АРП) решаются три важные для СРР задачи:

  1. Автоматическая идентификация диктора.
  2. Настройка СРР на диктора.
  3. Выделение речевого сигнала нужного диктора в условиях помех, обеспечение устойчивости к помехам.

Требуется по текущему речевому сигналу определить, какому АРП принадлежит данный голос, другим словами, идентифицировать диктора.

Введем следующие обозначения, касающиеся АРП:

 - весовой коэффициент направленной связи от элемента i к элементу j в акустико-речевом пространстве p-го диктора. Определяет динамические характеристики произношения диктора.

 - текущее расстояние от точки в признаковом пространстве, соответствующей вектору параметров анализируемого сегмента РС до ближайшего элемента АРП для p–го диктора. Характеризует близость статических акустических признаков анализируемого речевого сигнала аналогичным параметрам АРП р-го диктора.

Решение о принадлежности речевого сигнала конкретному диктору (АРП диктора) принимается на основании двух критериев:

1.Среднее расстояние от траектории анализируемого речевого сигнала в пространстве признаков до ближайшей соответствующей траектории проверяемого АРП диктора:

Метод настройки на диктора для систем автоматического распознавания речи,   журнал Искусственный интелект  №2  - 2007 год

2.Мера ассоциативной связанности между РБЭ траектории РС в АРП, составленной из элементов, ближайших к точкам реальной траектории РС в признаковом пространстве:

Метод настройки на диктора для систем автоматического распознавания речи,   журнал Искусственный интелект  №2  - 2007 год

Минимальность K1 и максимальность K2 являются критериями принятия решения идентификации. Надо понимать, что процедура идентификации, в данном случае, производится с целью настроить СРР на определенного диктора. Более того, если в системе распознавания отсутствует АРП нужного диктора, определяется АРП того диктора, голос которого наиболее похож на анализируемый. При достаточно большом количестве известных АРП, система распознавания может считаться условно дикторонезависимой.

Настройка СРР на диктора подразумевает следующее: необходимо связать параметры РС диктора с соответствующими шаблонами языковых единиц. На первый взгляд, целесообразно в качестве языковых единиц использовать фонемы или аллофоны, которых по сравнению со слогами или словами значительно меньше. Следовательно, для настройки системы на нового диктора достаточно прочитать те слова, в которых содержатся необходимые фонемы (аллофоны). Для упрощения процедуры настройки разработчики стараются подобрать минимальное количество необходимого речевого материала, чтобы не утомлять пользователя. Однако, выбор в качестве базовых речевых единиц фонем (или прочих подобных элементов) приводит к возникновению других трудностей, связанных с невысокой надежностью распознавания отдельных фонем (не более 80%).

В этой статье предлагается подход, суть которого в следующем: СРР обучена распознавать речь одного диктора, «базового». Процедура настройки СРР на диктора заключается в том, чтобы каждому элементу акустико-речевого пространства нового диктора поставить в соответствие элемент «базового» АРП. Таким образом, «базовый» диктор служит посредником, что позволяет добавить еще два важных положительных качества для системы:

1. Нет необходимости в большом количестве речевого материала для настройки на нового диктора. Достаточно 5-10 минут речи (с паузами между словами)*.

2. Базовыми единицами распознавания могут быть целые слова, при этом систему не нужно обучать на распознавание слов при смене диктора.

Заметим, что рекламируемые в настоящее время системы, не требующие настройки на диктора, используют такие параметры РС, которые не изменяются (относительно) от диктора к диктору. К сожалению, подобных параметров не достаточно чтобы дифференцировать большое количество слов. Размер словаря в этом случае ограничивается порядком 100-200 слов.

Рассмотрим методику соотнесения элементов АРП разных дикторов. Для этого потребуется фонетически сбалансированный текст, прочитанный, по словам «базовым» и новым диктором. Полученный речевой материал от двух дикторов синхронизируем, применяя процедуру динамического программирования, либо сегментирующую функцию. Таким образом, сегмент РС одного диктора достаточно точно связан с соответствующим сегментом РС другого диктора, следовательно, и вектора параметров РС разных дикторов связаны между собой. Благодаря проведенной синхронизации, появилась возможность связать элементы АРП «базового» диктора с элементами АРП нового диктора. Данная процедура реализуется при помощи нейроподобной сети, представленной на рисунке 1.


Рисунок 1
Схема связи АРП и БАРП

Разумеется, что даже при самой сложной процедуре синхронизации, не гарантируется полное соответствие сегментов РС. Для инвариантности системы, в указанном смысле, вводим понятие длина участка синхронизации, которое означает количество элементов АРП связывающихся между собой одновременно. Степень связанности элементов определяется весовыми коэффициентами v[i,j], значения которых изменяются в соответствии с формулой:

Формула справедлива только для синхронизованных РС. Значение L определяется эвристически.

В результате, после обучения сети, каждому элементу нового АРП можно найти соответствующий элемент из «базового» АРП (БАРП). Тут необходимо отметить, что в рамках данного подхода реализуется механизм контекстуального (ассоциативного) доступа к элементам «базового» АРП. То есть, соседние элементы в траектории РС влияют на выбор соответствующего элемента из БАРП. Величина L определяет размер ассоциативной области (контекста).

Следующая задача касается проблемы выделения полезного речевого сигнала в условиях помех. Все традиционные методы фильтрации РС остаются в силе, но к тому же появляется дополнительный механизм обеспечения устойчивости к помехам, основанный на использовании АРП диктора. Другими словами, для выделения полезного РС используются априорные знания о голосе диктора. Простейший алгоритм обеспечения толерантности системы по отношению к помехам заключается в следующем: вычисляется расстояние от точек реальной траектории РС в признаковом пространстве до ближайших элементов АРП говорящего диктора. Устанавливается значение порога, превышение которого вычисленной величины, сигнализирует о том, что данный участок речевого сигнала зашумлен, и во избежание искажений результата он не учитывается в процессе распознавания. Более сложные алгоритмы используют скрытые Марковские модели (СММ), либо Динамические ассоциативные запоминающие устройства (ДАЗУ) для выделения полезного РС.

Экспериментальные исследования.

Экспериментальные исследования направлены на решение следующих задач:

  1. Определение функциональности метода идентификации диктора.
  2. Определение качества настройки на диктора. Критерий качества представлен далее.
  3. Определение степени устойчивости к помехам.

Для определения функциональных качеств метода идентификации диктора, необходимо, посредством фонетически сбалансированного речевого материала, подключить дикторов к системе, создав для каждого из них акустико-речевое пространство. При десяти дикторах система продемонстрировала точную идентификацию дикторов. К тому же система показала эффективность при работе с незнакомым диктором, выбрав наиболее похожий голос из имеющихся в базе данных системы. В связи с этим, необходимо отметить, что возможные ошибки при достаточно большом количестве дикторов в базе (например, если голоса некоторых людей очень похожи), не повлияют значительно на результат распознавания.

Для определения качества настройки на диктора используются следующие вычисляемые параметры:

  1. Расстояние между эталонной траекторией слова и реализацией в признаковом пространстве без настройки на диктора.
  2. То же расстояние, но после настройки на диктора. (Как было сказано выше, эталонные траектории имеются только в базовом АРП).

Для определения степени устойчивости к помехам планируется проведение следующих мероприятий:

  1. Изучение влияния различного рода помех на характер смещения траектории зашумлённого РС от чистого.
  2. Определение предельных значений величины смещения не искажающих результат распознавания.
  3. Определение зависимости результата распознавания от источника помех.

Один из основных вопросов, который требуется решить по результатам экспериментов, это какие типы источников помех не влияют на результаты распознавания. Речь идет о встроенном свойстве АРП, которое заключается в том, что в процессе распознавания используются не точки реальных траекторий РС в признаковом пространстве, а точки, являющиеся центром ближайших элементов АРП. Требуется выяснить насколько эффективен по отношению к помехам данный внутренний механизм, позволяющий «притягивать» точки зашумленного РС к точкам заведомо незашумленного РС (элементам АРП) и в какой степени вектор притяжения направлен в сторону чистого РС.

сотрудник ЗАО НТЦ «ПОИСК-ИТ» Кандидат технических наук Д.А. Кушнир

19.03.2007