При формантном методе, в отличие от артикуляторного, моделируются не физиологические процессы образования речи, а результат этих процессов: акустические характеристики речевой волны.
При этом достигается компактность описания речевого сигнала при достаточно высокой разборчивости синтезируемой речи. Фундаментальное понятие акустической теории речеобразования - форманта, может быть, с одной сторона, определена расчетным путем для каждой фонемы по конфигурации речевого тракта, а с другой - измерена экспериментально по спектру звука. Главным выводом акустической теории является то, что различия в конфигурациях речевого тракта, обусловленные местом образования фонем, отражаются на акустическом уровне в положении на частотной оси полюсов (резонансов) акустической системы. Эти полюса проявляются на амплитудно-частотном спектре в виде определенных максимумов, называемых формантами.
Общая структура формантного синтезатора речи показана на рис. 2.3.
Рис 2.3. Схема формантного синтезатора речи по тексту
Последовательность фонетических элементов, размеченных значениями просодических параметров, поступает в блок генерации формантных параметров речи, использующий данные БД целей и параметров траекторий перестройки формант. Базовая акустическая модель, используемая данным блоком, состоит из источников возбуждения и набора формантных фильтров. Каждый из фильтров описывает характеристики формант и, вместе с источником возбуждения, моделирует речевой спектр, который отражает динамику движения артикуляторных органов.
Формантные параметры, генерируемые данным блоком, различны в разных системах синтеза, и их количество может доходить до 60 [52]. Основными параметрами модели являются следующие: частота основного тона - F0, амплитуды голосового - Аг и аспиративного - Аа возбуждения ротовых формант, амплитуда шумового возбуждения - Aф фрикативных формант, амплитуда голосового возбуждения - Ан носовых формант, частоты - F1, F2, F3 ротовых формант, частота - Fф и полоса пропускания - Bф фрикативных формант. Временная последовательность наборов полученных параметров поступает в блок генерации речевого сигнала, управляя источниками шумового и голосового возбуждения (ИШВ, ИГВ) и характеристиками формантных фильтров.
В качестве источника шумового возбуждения используется генератор широкополосного шума Импульсы голосового возбуждения могут аппроксимироваться треугольной функцией, отрезками синусоидальной функции, комбинацией синусоидальной и экспоненциальной функций, либо представляться с помощью аэродинамической модели голосообразования. Формантные фильтры могут быть представлены цифровыми фильтрами второго порядка, описываемыми уравнением
где n – текущий отсчёт времени,
n-1, n-2 – предыдущие отсчёты времени, xn, xn-1 – входные сигналы фильтра, yn, yn-1, yn-2 - выходные сигналы, k1, k2 – коэффициенты, отражающие частоту и полосу пропускания фильтра, и определяемые следующими формулами:
где Bi – полоса пропускания i-той форманты, Fi – частота i-той форманты, ft – частота дискретизации сигнала.
Для передачи индивидуальности голоса формантным синтезатором речи необходимо создать персонализированные БД целей и параметров траекторий перестройки формант, а также создать адекватную модель голосообразования. Однако автоматическое выделение значений формантных параметров из речевого сигнала, как правило, сопровождается большим количеством ошибок [59, 60], которые в конечном итоге влияют и на качество синтезируемой речи, и на точность передачи индивидуальных характеристик голоса.
Кроме того, существенным недостатком формантного метода является представление процессов речеобразования линейными моделями, не учитывающими взаимовлияние колебаний голосовых связок и резонаторов речевого тракта (так называемый «coupling effect» [61, 62]). Как следствие, формантный метод синтеза не позволяет с достаточной степенью правдоподобия передать индивидуальные характеристики голоса диктора. Эксперименты по узнаваемости голоса, синтезированного с использованием формантного метода [63], показывают, что степень опознавания (субъективная оценка) не превышает 80%.