СП-модель основана на физиологической модели речеобразования, объединенной с иерархической теорией просодической фонологии, и представляет интонацию как последовательность событий с перекрывающимися областями.
При этом события являются результатом интерактивных интонационных «команд», которые представляют слоги, акцентные и ударные группы, фразы и более крупные просодические единицы. Команды комбинируются таким образом, что каждый уровень иерархии представлен в генерируемом контуре F0.
Каждая команда состоит из пика и экспоненциального угасания. Пик может представляться выходом фильтра, который возбуждается прямоугольной входной командой [79], или задаваться параметрами пика и угасания. Фразовая команда, которая является максимальной единицей в модели, обычно устанавливает интонационный регистр для фразы. Акцентная команда – это острый пик с коротким временем угасания, представляющий движение F0 при интонационном событии. Комбинация команд при формировании интонационного контура показана на рис. 2.7.э
Рис. 2.7. Суперпозиционная модель генерации контура F0
СП-модель является основой для интонационных моделей нескольких языков в многоязычном синтезаторе. При этом реализация синтеза интонации использует гибридную модель, сочетающую предсказание уровней тона (с использованием сокращённого инвентаря тонов ToBI) и предсказанием, на основе полученных уровней тона, параметров акцентных и фразовых команд.
СП-модели апробированы при синтезе интонации для нескольких языков. Однако при анализе интонации естественной речи в рамках СП-модели возникают некоторые неоднозначности. В частности, главной проблемой является представление различных движений основного тона суммой акцентных и фразовых тонов.