Основные характеристики артикуляторного метода синтеза речи по тексту

Thursday, May 09, 2024

При этом речевой аппарат представляется как акустическая система, состоящая из последовательности коротких цилиндрических труб переменного сечения, возбуждаемая голосовым и (или) шумовым источниками. При генерации речевого сигнала характеристики речевого аппарата представляются электро-акустическими аналогами. Общая структурная схема артикуляторного синтезатора речи по тексту представлена на рис. 2.2.

Схема артикуляторного синтезатора речи по тексту

Рис 2.2. Схема артикуляторного синтезатора речи по тексту

Последовательность фонетических элементов с заданными просодическими параметрами подаётся в блок генерации артикуляторных движений, который извлекает из БД соответствующие значения целей и параметров траекторий движений артикуляторов. Сгенерированные значения функций движения артикуляторов передаются в следующий блок, который, используя геометрическую модель речевого тракта (РТ), вычисляет текущие значения площадей сечений секций РТ - Si, где 1 ≤ i ≤ N.

Количество секций N равно отношению длины моделируемого речевого тракта к длине одной секции, которая может варьироваться от 0,2 до 1 см. Средняя длина речевого тракта у женщин составляет в 9-11 см, у мужчин – 11-13 см) Последовательность значений Si, а также параметры сигналов источников голосового (Аг, F0) и шумового (Аш) возбуждения (ИГВ и ИШВ) передаются в блок генерации речевого сигнала. Каждая секция РТ может быть представлена эквивалентным Т- образным электрическим звеном. Аналоговая реализация речевого тракта [15] содержит 45 таких звеньев. Для представления речевого сигнала в терминах геометрических размеров речевого тракта цифровым 56 методом используются так называемые коэффициенты отражения - ki [43]. Эти величины можно интерпретировать как коэффициенты частичной корреляции между отсчётами сигнала xn и xn+1. В работе [43] показано, что в случае акустической трубы с одинаковыми по длине звеньями площади сечения звеньев связаны с коэффициентами отражения формулой

Основные характеристики артикуляторного метода синтеза речи по тексту

В этой же работе предложен метод реализации синтезатора речевых сигналов в виде цифрового фильтра лестничной формы, описываемого коэффициентами отражения {ki}.

Персонализированная артикуляторная модель речеобразования может быть задана базой данных целей и параметров траекторий движений артикуляторов. Для создания такой БД исследуются и моделируются нейрофизиологические, механические, аэродинамические и акустические аспекты речеобразования. Однако к настоящему времени достигнутые результаты исследования механики движения артикуляторных органов и аэродинамики процессов всё ещё не готовы для практического использования из-за чрезвычайной сложности и нерешённости базовых теоретических проблем моделирования процессов речеобразования.