Методы сегментации и маркировки естественного речевого сигнала

Saturday, April 20, 2024

Сегментация речевого сигнала на фонетические элементы применяется в различных областях речевых технологий, в частности, в системах синтеза речи, в фонемно-ориентированных системах распознавания речи, в системах идентификации и верификации диктора.

В контексте синтеза речи, когда известна последовательность фонем, составляющих речевой корпус, и, как правило, речевой сигнал размечен на периоды основного тона, задача сегментации сигнала упрощается, за счёт чего точность сегментации может быть существенно повышена.

Для систем синтеза речи, использующих в составе БД элементы компиляции, содержащие наряду с фонетико-акустическими также и просодические характеристики задача состоит не только в сегментации потока речи на базовые речевые единицы, но и в вычислении для каждой речевой единицы просодических параметров: длительности, энергии и частоты основного тона.

Во многих случаях процесс сегментации и маркировки речевой БД осуществляется вручную экспертом-фонетистом с использованием полуавтоматических средств просмотра осциллограмм, спектрограмм и сонограмм сигнала [130-132]. «Ручной» метод сегментации и маркировки требует много времени и усилий, но обеспечивает при достаточно высокой квалификации эксперта, в отличие от автоматической сегментации, достаточно точную разметку речевого корпуса.

Требования к точности разметки зависят от типа базовых речевых единиц. Так, при использовании в качестве базовых речевых единиц дифонов или слогов допускается некоторая погрешность разметки, которая затем компенсируется в процессе синтеза речи, в то время как при использовании в качестве элементов компиляции аллофонов требования к точности разметки существенно возрастают.

Автоматическая сегментация и маркировка включает следующую последовательность действий:

– параметрическое представление речевого сигнала;

– обучение, «настройка» модели;

– сегментация и маркировка;

– пост-коррекция результатов сегментации.

Вне зависимости от метода сегментации используются, в частности, следующие типы параметрического представление речевого сигнала: кепстральные коэффициенты [133, 134], энергия и дельта-энергия сигнала [135, 136], линейные спектральные пары [137].

Основные подходы, используемые для автоматической сегментации и маркировки сигнала – это нейро-сетевые модели (НС-модели), скрытые марковские модели (СММ), и методы динамического программирования (ДП-методы).

Использование НС-моделей требует предварительной процедуры обучения для настройки нейронной модели, накопления достаточного количества статистических данных, которое осуществляется на базе уже размеченных речевых корпусов большого объёма. Тем не менее, при использовании НС-модели не достигается требуемая точность разметки, поэтому, как правило, он применяется в комбинации с другими методами [138, 139].

Методы сегментации и маркировки, использующие СММ [140-143], учитывают не только акустические, но и фонетические свойства речевого сигнала. Получение определённых спектральных характеристик фонем достигается путём анализа больших по объёму БД. Однако содержащейся в них информации о фонемных переходах часто недостаточно. Для решения этой проблемы используется контексто-зависимая фонемная модель. Существует несколько подходов для определения фонемных переходов: использование методов нечёткой логики, правила которой представляют фонетические знания об образцах изменений на фонетических переходах [144], нейронных сетей, обучающихся на статистике [145], и моделей гауссовых смесей [134]. В любом случае, однако, нет уверенности, что границы фонем, вычисленные в процессе обучения СММ модели, будут соответствовать действительным границам фонем в речевом сигнале. Для достижения большей точности данный подход требует дополнительного обучения, т. е. наличия очень большого (порядка нескольких часов) размеченного речевого корпуса, что не всегда возможно.

ДП-метод заключается в динамическом сопоставлении двух векторов и нахождении оптимального пути соответствия между ними[146, 147]. В качестве таких векторов используются параметрически представленный синтезированный речевой сигнал – вектор-эталон, и параметрически представленный естественный речевой сигнал – вектор-реализация [148,149].

Блок-схема системы сегментации и маркировки речевого корпуса ДП-методом представлена на рис. 2.12.

Блок-схема системы сегментации и маркировки речевого корпуса ДП-методом

Рис. 2.12. Блок-схема системы сегментации и маркировки речевого корпуса ДП-методом

Для синтеза речевого сигнала содержимое текстового корпуса транскрибируется и преобразуется к последовательности символов, обозначающих базовые речевые единицы, акустическая реализация которых извлекается из уже существующей БД элементов компиляции. Затем осуществляется конкатенация акустических единиц. При этом в синтезированном речевом сигнале отмечаются границы речевых сегментов. Найденный в процессе ДП-сопоставления оптимальный путь соответствия указывает положение границ базовых сегментов в естественном речевом сигнале. Использование ДП-метода не требует процедуры обучения модели, кроме того, является в значительной степени дикторонезависимым.