СП-модель основана на физиологической модели речеобразования, объединенной с иерархической теорией просодической фонологии, и представляет интонацию как последовательность событий с перекрывающимися областями.

При этом события являются результатом интерактивных интонационных «команд», которые представляют слоги, акцентные и ударные группы, фразы и более крупные просодические единицы. Команды комбинируются таким образом, что каждый уровень иерархии представлен в генерируемом контуре F0.

Каждая команда состоит из пика и экспоненциального угасания. Пик может представляться выходом фильтра, который возбуждается прямоугольной входной командой [79], или задаваться параметрами пика и угасания. Фразовая команда, которая является максимальной единицей в модели, обычно устанавливает интонационный регистр для фразы. Акцентная команда – это острый пик с коротким временем угасания, представляющий движение F0 при интонационном событии. Комбинация команд при формировании интонационного контура показана на рис. 2.7.э

Суперпозиционная модель генерации контура F0

Рис. 2.7. Суперпозиционная модель генерации контура F0

СП-модель является основой для интонационных моделей нескольких языков в многоязычном синтезаторе. При этом реализация синтеза интонации использует гибридную модель, сочетающую предсказание уровней тона (с использованием сокращённого инвентаря тонов ToBI) и предсказанием, на основе полученных уровней тона, параметров акцентных и фразовых команд.

СП-модели апробированы при синтезе интонации для нескольких языков. Однако при анализе интонации естественной речи в рамках СП-модели возникают некоторые неоднозначности. В частности, главной проблемой является представление различных движений основного тона суммой акцентных и фразовых тонов.


 

 

 

Добавить комментарий