Методы персонализированного синтеза речевого сигнала

Monday, April 29, 2024

В данной главе рассматриваются принципиальные различия в методах обработки текста и генерации речевого сигнала, важные с точки зрения передачи индивидуальности голоса и речи.

В общем виде структурная схема синтезатора речи по тексту представлена на рис. 2.1.

Общая структура синтезатора речи по тексту

Рис 2.1. Общая структура синтезатора речи по тексту

Анализ и обработка текста включает просодические и фонетические преобразования, в результате которых генерируется последовательность фонетических элементов с маркерами значений просодических параметров: частоты основного тона F0, амплитуды A и длительности звуков T.

Полученная последовательность поступает на вход блока обработки сигнала, который на её основе генерирует речевой сигнал, обладающий заданными фонетическими и просодическими характеристиками.

Как качество синтезируемой речи, так и точность передачи индивидуальных характеристик голоса напрямую зависят от акустической модели, используемой блоком генерации сигнала.

Существует несколько подходов к генерации речевого сигнала в системах синтеза речи по тексту (СРТ-системах), использующих следующие методы:

– артикуляторный, или бионический, метод;

– формантный метод;

– компиляционный, или конкатенативный, метод;

– корпусный метод.