В соответствии с текстом текущей синтагмы из БД звуковых волн выбирается требуемая последовательность аллофонов и (или) мультифонов, осуществляется их последовательное соединение (конкатенация).

По заданным просодическим характеристикам синтагмы выбираются требуемые просодические портреты АЕ и далее формируются текущие значения F0(t), A(t), T(t) звуковых волн аллофонов.

Общая структура алгоритма представлена на рис. 4.26.

Структурная схема алгоритма просодической обработки речевого сигнала

Рис. 4.26. Структурная схема алгоритма просодической обработки речевого сигнала

Формирование мелодического - F0 (t) и энергетического - A(t) контуров. Работу алгоритма проиллюстрируем на примере формирования мелодического-F0 (t) и энергетического-A(t) контуров синтагмы текста «Машенька открыла глаза», состоящей из трёх АЕ, интонационный тип которой – С3.

Аллофонная запись этой синтагмы имеет вид:

1-я АЕ: M002,A012,SH001,E323,N’003,K002,A232

2-я АЕ: A222,T001,K002,R002,Y021,L002,A212

3-я АЕ: G002,L002,A212,Z002,A020

Ядро каждой АЕ помечено жирным шрифтом. Ядрами являются полноударные гласные, распознаваемые по принадлежности к списку {A, E, I, O, U} и первому цифровому индексу {0}.

Предъядром каждой АЕ являются аллофоны, стоящие от ядра слева, а заядром – стоящие справа от ядра. В 3-й АЕ заядро отсутствует.

В каждой АЕ подчёркиванием помечены шумные аллофоны (в отличие от звонких), которые не обрабатываются в процессе синтеза мелодического контура. Такие аллофоны распознаются по принадлежности к списку: {b, d, g, p, t, k, z, zh, f, s, sh, h, b’, d’, g’, p’, t’, k’, z’, f’, s’, sh’, h’, c, ch’} независимо от их цифровых индексов.

На рис.4.27 представлен мелодический портрет трёхакцентной синтагмы интонационного типа – С3, взятый из БД интонационных контуров. Каждый портрет АЕ содержит три одинаковых по длине участка: предъядро, ядро и заядро, каждый из которых состоит из 100 равноотстоящих отсчётов мелодической кривой.

Мелодический портрет трёхакцентной синтагмы интонационного типа – С3

Рис. 4.27. Мелодический портрет трёхакцентной синтагмы интонационного типа – С3

Мелодический портрет описывает движение частоты основного тона (ЧОТ), нормированное - (F0 N) от 0 до 1. Для того, чтобы найти абсолютные значения ЧОТ, необходимо задать минимальное - F0 min и максимальное - F0 max значения ЧОТ, характерные для синтезируемого голоса и произвести расчёт по формуле:

При использовании БД аллофонов мужского голоса выбираем F0 max =200Гц, а F0 min = 70Гц. При желании, изменяя эти значения, можно для того же голоса изменять диапазон ЧОТ (вплоть до монотонной речи), либо смещать высоту голоса.

Формула (4.11) используется далее для расчёта длительности каждого периода звонких (не глухих) аллофонов. Длительность текущего периода (в количестве отсчётов сигнала - N0) определяется по формуле:

где Fd - частота дискретизации речевого сигнала.

Работу алгоритма проиллюстрируем на примере синтеза первой АЕ синтагмы - «Машенька».

Шаг 1. Из БД интонационных контуров считываем мелодический портрет 1-й АЕ (рис. 4.28а).

Шаг 2. Из БД звуковых волн мужского голоса считываем звуковые волны аллофонов, соответствующие предъядру - M002, ядру – А012 и заядру - SH001, E323, N’003, K002, A232. В БД звуковых волн каждый из аллофонов и мультифонов предварительно размечен на питчи, указывающие границы периодов осноного тона.

Иллюстрация к алгоритму считывания нормированных ЧОТ

Рис. 4.28. Иллюстрация к алгоритму считывания нормированных ЧОТ

Шаг 3. Выравниваем длительности аллофонов, входящих в предъядро, ядро и заядро путём их растяжения или сжатия (рис. 4.28 б).

Шаг 4. Переносим метки питчей с сигналов звонких аллофонов предъядра, ядра и заядра на мелодический портрет АЕ и считываем с него соответствующие значения нормированных частот - F0 N.

Шаг 5. По формулам (4.11, 4.12) вычисляем требуемые в соответствии с мелодическим портретом длительности периодов звуковых волн аллофонов.

Шаг 6. Изменяем длительность каждого периода звонких аллофонов в соответствии с SL-алгоритмом плавной сшивки периодов, описанном в ранее в разделе 4.5.2.


На рис. 4.29 приведена осциллограмма первого слога «МА» 1-й АЕ синтагмы, полученная путём непосредственной её компиляции из БД аллофонов (вверху) и осциллограмма АЕ после модификации длительности периодов каждого из звонких аллофонов в соответствии с мелодическим портретом АЕ.

Иллюстрация изменения длительности периодов

Рис. 4.29. Иллюстрация изменения длительности периодов

Если заядерный участок АЕ отсутствует полностью, как в третьей АЕ рассматриваемого примера: G002, L002, A212, Z002, A020, либо в заядерной части отсутствуют звонкие аллофоны (как, например в слове мост), то для полной реализации интонационныонного контура АЕ необходимо искусственно создать заядерный участок на ударном гласном, выступающем как ядро АЕ. Для этой цели выполняются следующие шаги алгоритма.

Шаг 4’. Увеличиваем длительность ядерной гласной на 30%.

Шаг 4’’. Отступаем от конца полученного аллофона 1/3 его длительности и помечаем этот участок как заядро АЕ.

Дальнейшие процедуры осуществляются в полном соответствии с описанным выше алгоритмом.

Синтез энергетического контура синтагмы осуществляется путём задания соответствующих значений амплитуд аллофонов, из последовательности которых она состоит. Установка значений амплитуды - Аi i-го аллофона синтагмы осуществляется в соответствии с энергетическим портретом АЕ. Пример ритмического портрета 3-х акцентной синтагмы представлен на рис. 4.29.

Энергетический портрет 3-х акцентной синтагмы

Рис. 4.29. Энергетический портрет 3-х акцентной синтагмы

Установка амплитуд аллофонов осуществляется усилением (ослаблением) сигналов аллофонов, составляющих данную АЕ, путём умножения значений сигнала на коэффициент, задаваемый энергетическим портретом АЕ.

В приведенном на рис. 4.29 примере алофонные сигналы первой АЕ умножаются на коэффициент 0,8, второй АЕ – на 1,1 и третьей АЕ – на 0,6.

Коррекция длительности аллофонов с учётом значений ЧОТ. На рис. 4.30 а приведена осциллограмма первой АЕ синтагмы, полученная путём непосредственной её компиляции из БД аллофонов, а на рис. 4.30 б – её осциллограмма после модификации длительности периодов каждого из звонких аллофонов в соответствии с мелодическим портретом АЕ.

Иллюстрация изменения длительности аллофонов

Рис. 4.30. Иллюстрация изменения длительности аллофонов


Как видно из сравнения рис. 4.30 а и 4.30 б, длительность глухих аллофонов при модификации ЧОТ в соответствии с описанным алгоритмом осталась неизменной, однако длительность звонких аллофонов изменилась в ряде случаях весьма существенно.

Для того, чтобы длительность звонких аллофонов осталась неизменной, необходимо осуществить следующие операции.

Шаг 1. Подсчитываем суммарную длительность питчей –Tаi m i-го модифицированного аллофона и сравниваем её с длительностью исходного аллофона – Тai. Определяем разность

Если dT оказалась <0, то модифицированный аллофон следует удлинить, а если >0, то укоротить на определённое целое число питчей. Удлинение или укорочение осуществляется до тех пор, пока dT не станет менее длительности одного питча.

Шаг 2. Осуществляется процедура удлинения (укорочения) модифицированного аллофона. На рис. 4.31 представлена ситуация удлинения гласного аллофона А112 на 2 периода колебаний.

Иллюстрация процедуры удлинения гласного аллофона

Рис. 4.31. Иллюстрация процедуры удлинения гласного аллофона

Вначале определяется положение срединного питча (1) (см. верхнюю осциллограмму рис 4.31). Удлинение на 1 питч осуществляется путём его однократного повторения. Для удлинения на 2 питча осуществляется повторение его правого соседа – питча (2). Результат удлинения гласного аллофона А112 на 2 периода колебаний показан на нижней осциллограмме рис. 4.31. Для дальнейшего удлинения на 3 периода осуществляется повторение левого «соседа», т.е. питча (3), на 4 периода – следующего правого соседа, т.е. питча (4) и т.д. После добавления каждого нового питча его длительность суммируется с текущим значением Tаi m. Описанная процедура повторяется до тех пор, текущая длительность Tаi m и требуемая длительность аллофона ТNai не станут равны с точностью до одного питча.

Для укорочения гласного аллофона осуществляется операция «прореживания». Для укорочения на один период убирается питч (2), на два периода – питчи (2, 3), на три периода – питчи (2, 3, 6) и т.д., не затрагивая, однако, срединный питч (1), а также первый (7) и последний (8) питчи, которые должны быть обязательно сохранены. Процедура сокращения прекращается, когда текущая длительность Tаi m и требуемая длительность аллофона ТNai не станут равны с точностью до одного питча, либо когда в аллофоне останется всего три питча – два крайних и один срединный.

На рис.4.32 вверху показана осциллограмма первой АЕ синтагмы, полученная путём непосредственной её компиляции из БД аллофонов, а внизу – осциллограмма АЕ после изменения длительности периодов в соответствии с мелодическим портретом АЕ и после проведения описанной выше процедуры выравнивания длительностей исходных и модифицированных аллофонов.

Исходная (вверху) и модифицированная (внизу) осциллограммы первой АЕ синтагмы

Рис. 4.32. Исходная (вверху) и модифицированная (внизу) осциллограммы первой АЕ синтагмы

Установка целевых значений длительностей аллофонов. Формирование ритмического контура синтагмы осуществляется путём задания соответствующих значений длительности каждого аллофона, из последовательности которых она состоит. Установка значений длительности - Ti i-го аллофона синтагмы осуществляется в соответствии с коэффициентами, задаваемым ритмическими портретами акцентных единиц (АЕ) синтагмы, и корректируется затем с учетом требуемого темпа речи.

На рис. 4.33 показан пример ритмического портрета синтагмы текста «Машенька открыла глаза», состоящей из трёх АЕ, интонационный тип которой – С3. Нижний участок рисунка показывает изменённые под действием ритмических факторов относительные длительности ядер первой, второй и третьей АЕ синтагмы.

Пример ритмического портрета 3-х акцентной синтагмы

Рис. 4.33. Пример ритмического портрета 3-х акцентной синтагмы

Из рис. 4.33 видно, что в данном примере наибольшую длительность имеет ядро третьей (конечной) АЕ, наименьшую – ядро второй АЕ (срединной) и среднюю длительность – ядро первой (начальной) АЕ. Если не принимать во внимание ярко выраженных индивидуальных особенностей диктора или стиля речи, то в соответствии с известными для русской речи данными можно определить следующие факторы, влияющие на ритмическое оформление синтагмы:

1. Интонационный тип – I (незавершённый, завершённый, вопросителный, восклицательный);

2. Позиция АЕ в синтагме – Р (серединная, начальная, конечная);

3. Количество АЕ в синтагме – М (три и более, две, одна);

4. Количество слогов в АЕ – N (три и более, два, один).

Здесь в скобках приведены градации каждого фактора в порядке их влияния на степень удлинения ядра АЕ. При создании БД аллофонов для синтеза речи использовались фонограммы фраз (см. главу 5), в которых для указанныхчетырёх ритмических факторов преобладали подчёркнутые обозначения их градаций. Эти подчёркнутые обозначения градаций принимаются равными 1. В первом приближении каждый из четырёх факторов может быть представлен тремя градациями, экспериментальные значения которых приведены в табл. 4.5. Набор этих значений описывает ритмический портрет синтагмы.

Таблица 4.5.

Общий ритмический коэффициент определяется как:

Для выбранных в табл.4.5 значений максимально-возможное удлинение ядерной гласной составит: Kr = 1,3*1,2*1,2*1,3 = 2,4.

Установка требуемого темпа речи. Регулировка темпа речи осуществляется путём корректировки длительности аллофонов и межсинтагменных пауз с учётом коэффициента ”податливости” каждого конкретного звука темповым изменениям. Экспериментальная оценка пределов изменения относительной длительности аллофонов и пауз при изменении темпа приведены в таблице 4.6. Считается, что среднему темпу соответствует длительность аллофонов, помещённых в БД.

Таблица 4.6. Относительная длительность аллофонов при изменении темпа

 Относительная длительность аллофонов при изменении темпа

Синтез ритмического контура осуществляется посинтагменно, т.е. путём считывания в буфер последовательности Wav-файлов аллофонов, наполняющих синтагму.

Процедура синтеза ритмического контура основана на вычислении новых значений длительностей аллофонов - ТNai, исходя из множества перечисленных выше факторов. Вычисление осуществляется в соответствии со следующей формулой:

где: Kp – просодический коэффициент; TMP – желаемый темп речи, задаваемый на интервале (0 – 1); Kmin – коэффициент минимально-возможного укорочения аллофона; Kmax - коэффициент максимально-возможного удлинения аллофона; Тai– длительность i-го аллофона.

В формуле (4.15) значение коэффициента Kp берётся из таблицы 4.5 только для ударных гласных. Для остальных аллофонов его значение равно 1. Темп речи задаётся значениями на интервале (0 – 1). Нулю соответствует самый быстрый темп, единице – медленный. Коэффициенты Kmin и Kmax берутся из таблицы 4.6. Они должны быть различны для различных классов аллофонов. Длительность i-го аллофона Тai определяется БД аллофонов. Длительности: исходная - Тai и просодически модифицированная - ТNai, задаются количеством отсчётов в аллофоном сигнале.

Процесс модификации длительности глухих согласных аллофонов: {p, t, k, f, s, sh, h, p’, t’, k’, z’, f’, s’, sh’, h’, c, ch’} осуществляется следующим образом.

Шаг 1. Определяется значение разности


Шаг 2. Если полученное значение – положительное число, то осуществляется удлинение аллофона. Для этого вначале определяется положение середины звука. Затем от неё откладывается отрезок требуемой длительности - dT, который повторяется (копируется).

Шаг 3. Если полученное значение – отрицательное число, то осуществляется укорочение аллофона путем вырезания участка звука требуемой длительности из середины аллофона. На рис. 4.34 представлен пример процедуры удлинения глухого аллофона.

 Иллюстрация процедуры удлинения глухого щелевого аллофона S001

Рис. 4.34. Иллюстрация процедуры удлинения глухого щелевого аллофона S001.

Процесс модификации длительности аллофонов гласных {a, e, i, o, u} и звонких согласных {m, n, l, r, m’, n’, l’, r’, j’, b, d, g, z, zh, b’, d’, g’, z’} осуществляется таким же образом, как и при рассмотренной ранее коррекции длительности аллофонов с учётом значений ЧОТ


 

 

 

Добавить комментарий


Защитный код
Обновить