Основные характеристики компиляционного метода синтеза речи по тексту

Saturday, July 27, 2024

Основным отличием компиляционного, или иначе конкатенативного метода, от двух описанных выше является использование при синтезе речи элементарных отрезков естественной речевой волны.

При таком подходе исключается необходимость моделирования сложных акустических процессов речеобразования. В процессе синтеза скомпилированный из сегментов естественной речи сигнал подвергается дополнительной модификации: сглаживаются переходы между соединёнными участками и изменяются просодические параметры в соответствии со значениями, полученными на этапе про-содической обработки.

Общая структурная схема компиляционного синтезатора речи показана на рис. 2.4.

Схема компиляционного синтезатора речи по тексту

Рис 2.4. Схема компиляционного синтезатора речи по тексту

Последовательность фонетических элементов подаётся в блок обработки сигнала, который выбирает из БД сегментов естественной речи соответствующие звуковые реализации элементов и соединяет их в непрерывный речевой сигнал. Сформированный сигнал подаётся в блок акустической обработки, выполняющий модификацию значений F0, A, T речевой волны в соответствии с входными значениями просодических параметров. При этом используются различные алгоритмы модификации сигнала: TD-PSOLA, алгоритм плавной сшивки, модель «гармоники плюс шум».

Наиболее распространённым алгоритмом модификации речевой волны является TD-PSOLA (Time-Domain Pitch-Synchronous OverLap-Add), изменяющий непрерывный речевой сигнал синхронно с периодом основного тона. При этом граница периода должна быть установлена в максимуме амплитуды сигнала.

Для модификации речевой волны вычисляется последовательность фреймов si(n), получаемых синхронно с периодом основного тона:

Основные характеристики компиляционного метода синтеза речи по тексту

где n – номер отсчёта дискретного сигнала,

s(n) – значение исходного сигнала,

w(n-iT0) – оконная функция взвешивания, длина которой кратна текущему периоду основного тона,

T0 – период основного тона исходного сигнала.

Модифицированный сигнал Sp(n) вычисляется в соответствии с формулой

Основные характеристики компиляционного метода синтеза речи по тексту

где Т – результирующий период основного тона,

k – коэффициент, компенсирующий изменение энергии, вызванное изменением периода основного тона.

Бесконечная сумма в формуле (2.6) ограничивается в практических приложениях, как правило, четырьмя слагаемыми.

Алгоритм TD-PSOLA обеспечивает достаточно хорошее качество модификации просодических параметров, сохраняя частоты и полосы пропускания формант исходного сигнала, если степень изменения периода основного тона, выражаемая как отношение результирующего периода основного тона T к исходному периоду основного тона T0, находится в диапазоне [0,5 .. 2].

Алгоритм плавной сшивки, предложенный одним из авторов этой книги, также изменяет речевой сигнал синхронно с периодом основного тона. В отличие от TD-PSOLA, для данного алгоритма необходима разметка на периоды в начале той его части, которая соответствует моменту закрытия голосовых связок, а также привязка процедуры модификации речевой волны к участкам, в точности соответствующим периоду основного тона.

Модификация речевой волны при изменении частоты основного тона осуществляется в соответствии с формулой

Основные характеристики компиляционного метода синтеза речи по тексту

где T0 – период основного тона исходного сигнала,

Т – результирующий период основного тона,

L1(n), L2(n) – линейные функции, задаваемые, соответственно, формулами (2.8) и (2.9)

Основные характеристики компиляционного метода синтеза речи по тексту

где N – коэффициент сшивки, зависящий от результирующего значения T.

В практических приложениях N принимается равным 0,5*T.

Алгоритм плавной сшивки, так же, как и TD-PSOLA, применим для модификации F0, если степень изменения периода основного тона находится в диапазоне [0,5 .. 2]. Преимуществом алгоритма плавной сшивки в сравнении с TD-PSOLA является сохранение неизменным исходного речевого сигнала в начальной части периода, соответствующей отрезку времени, когда голосовые связки закрыты. Благодаря этому обеспечивается максимально полное сохранение индивидуальных акустических характеристик голоса.

При использовании модели «гармоники плюс шум» [70 – 72] исходный речевой сигнал представляется суммой периодической и стохастической функций:

Основные характеристики компиляционного метода синтеза речи по тексту

где Sp(n) – периодическая составляющая сигнала,

Sp(n) – стохастическая составляющая сигнала.

Стохастическая функция Sp(n) обычно задаётся с Гауссовым или равномерным распределением.

Периодическая функция представляется как сумма гармоник

Основные характеристики компиляционного метода синтеза речи по тексту

где i – индекс гармоники,

ai(n) – амплитуда i-той гармоники,

ϕi – фаза i-той гармоники, выражаемая формулой

Основные характеристики компиляционного метода синтеза речи по тексту

где ω0(j) – мгновенная частота сигнала,

T – интервал временной выборки.

Модификация сигнала в модели «гармоники плюс шум» осуществляется путём вычисления соответствия временных значений t’ синтезированного сигнала временным значениям t исходного сигнала, для чего используется функция соответствия t(t’).

Применение модели «гармоники плюс шум» имеет некоторые ограничения. В частности, при соединении сегментов естественной речи в точках соединения может возникнуть фазовая рассогласованность. Распространение изменения фазы на соседние фреймы влечёт искажения вокализованных щелевых звуков. Определённым недостатком метода является высокая вычислительная сложность его программной реализации.

Для передачи индивидуальности голоса и дикции личности методом компиляционного синтеза речи по тексту необходимо создать БД элементарных сегментов естественной речи, причём в ней должен содержаться, по крайней мере, один экземпляр речевого сегмента для каждого возможного фонетического элемента, получаемого на этапе фонетической обработки. Определённым недостатком компиляционного метода в сравнении с двумя описанными выше являются повышенные требования на объём памяти, используемой для хранения БД элементов компиляции.