В разделе 2.5 проанализированы существующие методы автоматической сегментации и маркировки речевого сигнала и обоснован выбор метода анализа через синтез с использованием математического аппарата динамического программирования (ДП-метод).

В основу ДП-метода положена процедура динамического сопоставления синтезированного и естественного сигналов [146, 147]. Потенциально процедура динамического сопоставления обеспечивает прецизионную разметку речевого корпуса, не требует предварительного обучения системы сегментации и, кроме того, является в значительной степени дикторонезависимой.

Основная идея автоматизации процессов сегментации и аллофонной маркировки заключается в реализации алгоритмов переноса меток начала и конца аллофонов с синтезированного сигнала на естественный речевой сигнал, произнесенный голосом клонируемого диктора. Для автоматического переноса меток выбирается один из синтезированных голосов, наиболее близкий к клонируемому голосу.

Динамическое сопоставление (ДП-сопоставление) синтезированного и естественного сигналов осуществляется путём вычисления матрицы интегральных расстояний между векторами спектральных признаков сигналов по рекуррентной формуле

где δA(n,m) – локальные расстояния между векторами спектральных признаков синтезированного и естественного сигналов.

Начальные условия для вычисления матрицы интегральных расстояний следующие: D(n,0) = 0; D (0,m) = 0.

Значения матрицы локальных расстояний dA(n,m) вычисляются по формуле

где S(n) – вектор спектральных признаков синтезированного сигнала в точке n, E(m) – вектор спектральных признаков естественного сигнала в точке m, K – размерность вектора спектральных признаков.

Соответствие между синтезированным и естественным сигналами находится путём отображения оптимального пути на вычисленной матрице интегральных расстояний D. Пример переноса меток границ аллофонов для слова «абракадабра» с синтезированного речевого сигнала (вертикальная ось) на естественный (горизонтальная ось) с использованием найденного оптимального пути соответствия показан на рис. 5.2.

Иллюстрация оптимального пути соответствия между синтезированным и естественным сигналами

Рис. 5.2. Иллюстрация оптимального пути соответствия между синтезированным и естественным сигналами

На рис. 5.3 приведена структурная схема системы сегментации и аллофонной маркировки. В состав системы входят блоки, выполняющие следующие функции:

– преобразование исходного орфографического текста (эталонный набор русских слов для клонирования) в аллофонный текст;

– синтез речевого сигнала (РС) и его аллофонную разметку;

– выделение спектральных признаков синтезированного и естественного речевых сигналов;

– автоматический перенос меток аллофонов с синтезированных спектральных параметров на естественный речевой сигнал и автоматическую маркировку аллофонных сигналов.

Структурная схема системы сегментации и аллофонной маркировки

Рис. 5.3. Структурная схема системы сегментации и аллофонной маркировки

Исходя из самого определения ДП-метода автоматической сегментации речевого сигнала, как метода анализа через синтез, вытекает, что уже в самом начале необходимо иметь, по крайней мере, одну готовую мини-БД аллофонов для реализации процедуры синтеза речи по тексту. Если ранее мини-БД аллофонов не была сформирована ни для одного из голосов, то сегментацию и аллофонную разметку мини-корпуса необходимо осуществить «вручную». Процедура «ручной» сегментации более 500 аллофонов для создания мини-БД достаточно трудоёмкая и требует определённых навыков. Этот недостаток ДП-метода с лихвой окупается, однако, указанными ранее его преимуществами перед другими методами.

Общая схема процедуры создания мини-БД аллофонов и макси-БД мультифонов, включающей систему автоматической сегментации речевого сигнала ДП-методом, представлена на рис. 5.4.

Процедура создания мини-и макси-БД звуковых волн аллофонов и мультифонов

Рис. 5.4. Процедура создания мини-и макси-БД звуковых волн аллофонов и мультифонов

На основе мини-текста осуществляется создание фонограммы записи голоса одного из дикторов. Полученный естественный речевой сигнал анализируется и сегментируется опытным экспертом-фонетистом, в результате чего создаётся мини-БД, содержащая полный набор звуковых волн аллофонов.

Фонограмма записей макси-текста, прочитанного тем же либо новым диктором, сегментируется автоматически с использованием описанного выше ДП-метода «анализа через синтез». При этом для синтеза размеченного речевого сигнала используется созданная ранее мини-БД звуковых волн аллофонов. Аллофонно-размеченный естественный речевой сигнал поступает в блок автоматического создания БД элементов компиляции, осуществляющий выбор фонетических сегментов различного уровня, их анализ и обработку. Результаты обработки помещаются в макси-БД звуковых волн аллофонов и мультифонов [179, 180, 181].


 

 

 

Добавить комментарий