Основные характеристики формантного метода синтеза речи по тексту

Saturday, July 27, 2024

При формантном методе, в отличие от артикуляторного, моделируются не физиологические процессы образования речи, а результат этих процессов: акустические характеристики речевой волны.

При этом достигается компактность описания речевого сигнала при достаточно высокой разборчивости синтезируемой речи. Фундаментальное понятие акустической теории речеобразования - форманта, может быть, с одной сторона, определена расчетным путем для каждой фонемы по конфигурации речевого тракта, а с другой - измерена экспериментально по спектру звука. Главным выводом акустической теории является то, что различия в конфигурациях речевого тракта, обусловленные местом образования фонем, отражаются на акустическом уровне в положении на частотной оси полюсов (резонансов) акустической системы. Эти полюса проявляются на амплитудно-частотном спектре в виде определенных максимумов, называемых формантами.

Общая структура формантного синтезатора речи показана на рис. 2.3.

Схема формантного синтезатора речи по тексту

Рис 2.3. Схема формантного синтезатора речи по тексту

Последовательность фонетических элементов, размеченных значениями просодических параметров, поступает в блок генерации формантных параметров речи, использующий данные БД целей и параметров траекторий перестройки формант. Базовая акустическая модель, используемая данным блоком, состоит из источников возбуждения и набора формантных фильтров. Каждый из фильтров описывает характеристики формант и, вместе с источником возбуждения, моделирует речевой спектр, который отражает динамику движения артикуляторных органов.

Формантные параметры, генерируемые данным блоком, различны в разных системах синтеза, и их количество может доходить до 60 [52]. Основными параметрами модели являются следующие: частота основного тона - F0, амплитуды голосового - Аг и аспиративного - Аа возбуждения ротовых формант, амплитуда шумового возбуждения - Aф фрикативных формант, амплитуда голосового возбуждения - Ан носовых формант, частоты - F1, F2, F3 ротовых формант, частота - Fф и полоса пропускания - Bф фрикативных формант. Временная последовательность наборов полученных параметров поступает в блок генерации речевого сигнала, управляя источниками шумового и голосового возбуждения (ИШВ, ИГВ) и характеристиками формантных фильтров.

В качестве источника шумового возбуждения используется генератор широкополосного шума Импульсы голосового возбуждения могут аппроксимироваться треугольной функцией, отрезками синусоидальной функции, комбинацией синусоидальной и экспоненциальной функций, либо представляться с помощью аэродинамической модели голосообразования. Формантные фильтры могут быть представлены цифровыми фильтрами второго порядка, описываемыми уравнением

Основные характеристики формантного метода синтеза речи по тексту

где n – текущий отсчёт времени,

n-1, n-2 – предыдущие отсчёты времени, xn, xn-1 – входные сигналы фильтра, yn, yn-1, yn-2 - выходные сигналы, k1, k2 – коэффициенты, отражающие частоту и полосу пропускания фильтра, и определяемые следующими формулами:

Основные характеристики формантного метода синтеза речи по тексту

где Bi – полоса пропускания i-той форманты, Fi – частота i-той форманты, ft – частота дискретизации сигнала.

Для передачи индивидуальности голоса формантным синтезатором речи необходимо создать персонализированные БД целей и параметров траекторий перестройки формант, а также создать адекватную модель голосообразования. Однако автоматическое выделение значений формантных параметров из речевого сигнала, как правило, сопровождается большим количеством ошибок [59, 60], которые в конечном итоге влияют и на качество синтезируемой речи, и на точность передачи индивидуальных характеристик голоса.

Кроме того, существенным недостатком формантного метода является представление процессов речеобразования линейными моделями, не учитывающими взаимовлияние колебаний голосовых связок и резонаторов речевого тракта (так называемый «coupling effect» [61, 62]). Как следствие, формантный метод синтеза не позволяет с достаточной степенью правдоподобия передать индивидуальные характеристики голоса диктора. Эксперименты по узнаваемости голоса, синтезированного с использованием формантного метода [63], показывают, что степень опознавания (субъективная оценка) не превышает 80%.