Функциональная схема, входные и выходные данные, взаимодействие блоков системы представлены на рисунке.

Входные данные системы:

– предварительно обработанная фонограмма записи – набор речевых синтагм, каждая из которых хранится в виде оцифрованной звуковой волны в отдельном файле в формате WAVE PCM;

– предварительно обработанная стенограмма записи – набор текстовых файлов синтагм, с указанием интонационного типа и количества акцентных единиц (АЕ) для каждой синтагмы;

– правила просодической маркировки синтезированного речевого сигнала на АЕ и элементы АЕ – предъядро, ядро и заядро (см. разделы 4.3, 4.5).

Выходные данные системы: БД просодических характерисик речи «клонируемого» диктора – набор мелодических, энергетических и ритмических портретов акцентных единиц.

Просодическая маркировка естественного РС. Текстовые файлы синтагм является входным данным блока синтеза и просодической маркировки синтезированного речевого сигнала (РС). В блоке синтеза осуществляется фонетическая и просодическая обработка текста, включающая преобразования «буква-фонема» и «фонема-аллофон», выбор звуковых волн аллофонов из акустической БД, их компиляция и маркировка синтезированного речевого сигнала на АЕ и элементы АЕ – предъядро, ядро и заядро (ЭАЕ). Результат обработки – просодически размеченная синтагма синтезированного речевого сигнала.

Каждая пара синтагм «просодически-размеченный синтезированный сигнал – естественный сигнал» поступает в блок ДП-сегментации и просодической маркировки естественного РС, в котором осуществляется разметка естественного сигнала на периоды основного тона (питчи), анализ акустических признаков естественного и синтезированного сигналов, их ДП-сопоставление и перенос маркеров границ аллофонов, АЕ и ЭАЕ с синтезированного на естественный РС. В системе реализована настройка параметров вычисления питчей естественного РС. Результатом работы блока является синтагма естественного РС, в которой расставляются метки питчей, аллофонов, а также предъядра, ядра и заядра для каждой АЕ. Для именования регионов приняты следующие обозначения: предъядро – preN, ядро – N, заядро – postN. По именам этих регионов определяются границы и длительности предъядра, заядра и ядра каждой акцентной единицы.

 Функциональная схема системы «ИнтоКлонатор»

Рис. 5.12. Функциональная схема системы «ИнтоКлонатор»

Пример сигнала синтагмы «Машенька уснула», размеченного на питчи и аллофоны, показан на рис. 5.13. Синтагма состоит из двух АЕ: «Машенька» и «уснула». Ядром первой АЕ является аллофон А012, ядром второй – аллофон U022.

Пример маркировки естественного РС синтагмы
Рис. 5.13. Пример маркировки естественного РС синтагмы

Алгоритмы создания мелодических портретов. С использованием информации о текущей длительности периодов речевого сигнала, задаваемой метками питчей, вычисляется исходный мелодический контур (ИМК) значений ЧОТ - F0 с использованием дополнительной процедуры медианного сглаживания. Для каждого элемента АЕ – предъядра, ядра и заядра – равномерно выбирается пять точек ИМК, лежащих во временных пределах каждого элемента АЕ на участках, соответствующих аллофонам гласных и звонких согласных. При этом в ИМК не включаются точки, находящиеся в регионах аллофонов шумных согласных {f, f’, s, s’, sh, sh’, c, ch’, h, h’, p, p’, t, t’, k, k’, b, b’, d, d’, g, g’}. На участках шумных согласных реальные значения ЧОТ заменяются новыми значениями путём вычисления интерполяционной прямой от последней точки предшествующего региона звонкого аллофона к первой точке последующего региона звонкого аллофона. Пример обработки контура ЧОТ для синтагмы «Машенька уснула»показан на рис. 5.14.

Пример обработки мелодического контура синтагмы
Рис. 5.14. Пример обработки мелодического контура синтагмы

На следующих шагах алгоритма осуществляется нормировка длительности сегментов preN, N, postN путём уравнивания длительности областей предъядра, ядра и заядра каждой АЕ, входящей в синтагму.

Далее осуществляется нормировка контура ЧОТ. Для этого определяются минимальное – F0 min – и максимальное – F0 max – значения на всей исследуемой фонограмме. Нормированные значения ЧОТ вычисляется согласно формуле:

Результататом описанных операций является создание последовательности нормированных мелодических портретов АЕ, составляющих синтагму (рис. 5.15).

Нормированный мелодический портрет двухакцентной синтагмы
Рис. 5.15. Нормированный мелодический портрет двухакцентной синтагмы: « Машенька уснула.»

Алгоритмы создания энергетического портрета. Для создания энергетического портрета синтагмы строится контур текущих значений энергии путём усреднения среднеквадратичного значения сигнала на интервале 15 миллисекунд с шагом 5 миллисекунд. На каждом из ядер АЕ синтагмы выбирается максимальное значение текущей энергии – Аi max. Графическое построение контура производится по следующему правилу. От левой границы сигнала до правой границы первого ядра строится горизонталь на уровне значения этого ядра А1 max. Далее от правой границы первого ядра до точки со значением амплитуды второго ядра синтагмы А2 max строится прямая, а от неё до правой границы этого же ядра строится горизонталь. И так далее, до последнего ядра, от правой границы которого проводится горизонталь до конца сигнала.

Пример обработки энергетического контура для синтагмы «Машенька уснула»показан на рис. 5.16.

Пример обработки энергетического контура синтагмы
Рис. 5.16. Пример обработки энергетического контура синтагмы

Далее производится нормировка энергетического контура контура. Нормировка по длительности сегментов preN, N, postN осуществляется, как и в предыдущем случае, путём уравнивания длительности областей предъядра, ядра и заядра каждой АЕ, входящей в синтагму. Нормировка энергетических уровней осуществляется путём деления полученного энергетического контура на величину наибольшего значения Аi max, найденного на всей исследуемой фонограмме.

Результататом описанных операций является создание нормированного энергетического портрета синтагмы (рис. 5.17).

Нормированный энергетический портрет 2-х акцентной синтагмы:
Рис. 5.17. Нормированный энергетический портрет 2-х акцентной синтагмы: « Машенька уснула.»

Алгоритмы создания ритмического портрета. Вычисляются длительности ядер АЕ, входящих в синтагму – TN1, TN2, TN3, …. Определяется максимальная из длительностей ядер в синтагме и осуществляется вычисление нормированных ритмических коэффициентов изменения длительности ядер в синтагме относительно ядра с максимальной длительностью. Ритмический коэффициент i-ой АЕ Ri вычисляется в соответствии с формулой

где TNi – длительность ядра i-й АЕ синтагмы, TNi max – максимальная из длительностей ядер в синтагме.

Результататом описанных операций является создание нормированного ритмического портрета синтагмы (рис. 5.18). Нижний участок рисунка показывает изменённые под действием ритмического фактора относительные длительности ядер первой и второй АЕ синтагмы.

Нормированный ритмический портрет двухакцентной синтагмы:

Рис. 5.18. Нормированный ритмический портрет двухакцентной синтагмы: « Машенька уснула.»


 

 

 

Добавить комментарий