В данной главе рассматриваются принципиальные различия в методах обработки текста и генерации речевого сигнала, важные с точки зрения передачи индивидуальности голоса и речи.
В общем виде структурная схема синтезатора речи по тексту представлена на рис. 2.1.
Рис 2.1. Общая структура синтезатора речи по тексту
Анализ и обработка текста включает просодические и фонетические преобразования, в результате которых генерируется последовательность фонетических элементов с маркерами значений просодических параметров: частоты основного тона F0, амплитуды A и длительности звуков T.
Полученная последовательность поступает на вход блока обработки сигнала, который на её основе генерирует речевой сигнал, обладающий заданными фонетическими и просодическими характеристиками.
Как качество синтезируемой речи, так и точность передачи индивидуальных характеристик голоса напрямую зависят от акустической модели, используемой блоком генерации сигнала.
Существует несколько подходов к генерации речевого сигнала в системах синтеза речи по тексту (СРТ-системах), использующих следующие методы:
– артикуляторный, или бионический, метод;
– формантный метод;
– компиляционный, или конкатенативный, метод;
– корпусный метод.