Блок синтеза акустико-фонетических характеристик речевого сигнала

Wednesday, April 24, 2024

Задачей этого блока является синтез речевого сигнала в соответствии с выходными данными блока формирования акустико-просодических характеристик речи (см рис. 4.16) путём выбора элементов из БД звуковыхволн мультифонов, их конкатенации, синтеза модифицированных звуковых волн аллофонов и формирования длительности звуков и темпа речи.

Структура блока синтеза акустико-фонетических характеристик

Рис. 4.18. Структура блока синтеза акустико-фонетических характеристик

Выбор и конкатенация аллофонов и мультифонов. Использование базового набора аллофонов обеспечивает синтез вполне разборчивой речи по произвольному тексту, однако качество речи может оказаться недостаточно высоким. Это объясняется тем, что реальное разнообразие оттенков фонем при их взаимодействии в потоке речи несоизмеримо большее, чем это обеспечивается используемым минимальным набором аллофонов. Кроме того, взаимовлияние соседних аллофонов в некоторых случаях может быть настолько сильным, что провести чёткую границу между ними зачастую просто невозможно. К таким случаям относятся, в частности, сочетания аллофонов гласный-гласный, гласный-сонорный, сонорный-сонорный. Существенное повышение качества и естественности речи может быть достигнуто, если в качестве элементов компиляции использовать не только аллофоны, но также и более крупные фонетические сегменты – диаллофоны (последовательность двух подряд идущих аллофонов) и аллослоги (слоговые сегменты с учётом позиционной и комбинаторной аллофонии). Следует, однако, иметь в виду, что платой за достижение более высокого качества может стать резкое возрастание объёма фонетико-акустической БД. Действительно, грубый подсчёт потенциального количества диаллофонов оценивается числом: Nda = N 2 = 5612 = 314 721. Далеко не все комбинации аллофонов возможны, но как показывает опыт, их количество в слитной речи может достигать десятков тысяч.

Для преодоления указанных противоречий при синтезе речи целесообразно использовать фонетико-акустическую БД, содержащую не только минимальный набор аллофонов, но и дополнительный набор из наиболее часто встречающихся диаллофонов и аллослогов, извлекаемых из представительного корпуса естественной речи.

Алгоритм выбора речевых сегментов должен быть сформирован таким образом, чтобы для произвольной аллофонной последовательности, подаваемой на вход блока, выбиралось наибольшее возможное число мультифонных сегментов.

Для решения этой задачи вначале осуществляется поиск в БД слоговых комплексов (см. раздел 3.2) в соответствии со следующим приоритетом: внутрисинтагменные и затем внутрисловные слоговые комплексы 3-го типа, которые имеют максимальную длительность, далее, соответственно, слоговые комплексы 2-го типа, имеющие среднюю длительность, и, наконец, слоговые комплексы 1-го типа, имеющие минимальную среди всех типов длительность.

На каждом шаге поиска в случае, когда в БД не найден внутрисинтагменный слоговый комплекс 3-го типа, осуществляется последовательный поиск составляющих его слоговых комплексов низших уровней в соответствии с указанным выше приоритетом.

В случае, когда в БД не найден ни один из сформированных типов аллослогов, осуществляется поиск составляющих его диаллофонов. При этом всё множество диаллофонов разбивается в порядке уменьшения взаимовлияния соседних аллофонов и, как следствие, важности их вклада в качество синтезируемой речи на 4 группы: ГГ, СГ, СС, ГС (где Г обозначает гласный, С – согласный). Указанный порядок задаёт приоритет их выбора. В случае, когда необходимые диаллофоны отсутствуют в БД элементов компиляции, происходит выбор соответствующих аллофонов.

Последовательность выбора диаллофонов при синтезе речи для синтагмы «Издёрганная скрипка плакала в дуэте с виолончелью» показана в таблице 4.3, где границы диаллофонов помечены значками «<», «>». Диаллофоны, добавляемые на каждом шаге выбора, выделены жирным шрифтом.

Таблица 4.3

В приведённом примере в результате разметки на диаллофоны с учётом указанного приоритета формируется 19 диаллофонов, из которых 2 – типа ГГ, 13 – типа СГ, 3 – типа СС и 1 – типа ГС. Четыре аллофона остаются не сгруппированными (не присоединёнными к соседним): R001, P001, N003, L'001.

В результате указанной стратегии приоритетов элементы БД аллофонов, составляющих мини-набор, будут использоваться только в тех крайних случаях, когда необходимые для синтеза элементы верхних уровней – мультифоны – отсутствуют в имеющейся БД аллофонов и мультифонов.

Синтез модифицированных звуковых волн аллофонов. Формирование целевых значений ЧОТ, которое влечёт модификацию периодов естественного речевого сигнала, должно осуществляться с максимально возможным сохранением индивидуальности и качества звучания речи. Для формирования мелодического контура F0(t) используется SL-алгоритм [69], который позволяет осуществлять “щадящую” модификацию ЧОТ путём “плавной сшивки” (“Soft Lacing”) соседних периодов естественного сигнала на интервалах открытой голосовой щели, сохраняя речевой сигнал неизменённым на остальных участках.

Согласно теории речеобразования, наибольшую информацию о звуке несёт участок закрытой голосовой щели, на котором реализуются наиболее интенсивные формантные колебания. Поэтому модифицируемый речевой сигнал (аллофон) должен быть размечен на периоды основного тона таким образом, чтобы граница периода указывала на момент времени, непосредственно предшествующий началу смыкания голосовых связок. При такой разметке для модификации периодов используется вторая половина периода, которая соответствует участку открытой голосовой щели. Начальная же половина остаётся неизменной.

Пример такого аллофона, извлечённого из БД на этапе выбора и компиляции отрезков естественной речевой волны, представлен на рис. 4.19. Границы периодов основного тона, отмеченные на рисунке вертикальными штриховыми линиями, установлены в точках перехода сигнала через ноль, которые соответствуют моменту смыкания голосовых связок. Длительность одного периода основного тона T0 представленного аллофона равна 10 мс, а частота основного тона F0 – 100 Гц.

Фрагмент вокализованного аллофона А142 с маркерами периодов основного тона

Рис. 4.19. Фрагмент вокализованного аллофона А142 с маркерами периодов основного тона

Для изменения значений частоты основного тона необходимо увеличить или уменьшить длительности каждого периода аллофона.

Если осуществлять процедуру уменьшения длительности периода простым отсечением «лишнего» участка, то возникнут искажения сигнала и качество звучания речевого сигнала существенно ухудшится. Пример такого изменения длительности периода продемонстрирован на рис. 4.20, 4.21. На рис. 4.20 показаны два подряд идущих периода основного тона сигнала, собственная длительность периода основного тона сигнала T0, целевая длительность периода T0 ’, а также участок сигнала, который необходимо удалить. Результат удаления показан на рис. 4.21.

Процесс уменьшения периода основного тона

Рис. 4.20. Процесс уменьшения периода основного тона

Разрыв сигнала

Рис. 4.21. Разрыв сигнала

Такие разрывы сигнала воспринимаются в синтезированной речи как характерные щелчки, наличие которых заметно ухудшает качество речи.

Для исключения разрывов применяется плавная сшивка участков двух граничащих периодов. При этом удаляемый участок «перемещается» влево и «накладывается» на предшествующий участок этого же периода, как показано на рис. 4.22, 4.23.

Перемещение удаляемого участка

Рис. 4.22. Перемещение удаляемого участка

«Наложение» двух участков (рис. 4.23) происходит путём умножения каждого из них на характеризующие линии L1 и L2, причём значение L1 в начальной точке равно 1, в конечной точке – 0, а значение L2 в начальной точке равно 0, в конечной точке – 1.

«Наложение» участков двух сигналов

Рис. 4.23. «Наложение» участков двух сигналов

Математически такая модификация сигнала выражается формулой:

где N – коэффициент сшивки, зависящий от результирующего значения T.

В практических приложениях N принимается равным 0,5T.

Процесс уменьшения значения F0 (и соответственно увеличение длительности периода основного тона) показан на рис. 4.24, 4.25.

Для добавления участка длиной N, где N = T0 ’ – T0, в исходный сигнал добавляется “пустой” участок длины N, а также формируется дополнительный сигнал путём вставки в начало периода “пустого” участка длины N (рис. 4.24).

Перемещение периода для добавления участка сигнала

Рис. 4.24. Перемещение периода для добавления участка сигнала

Затем, так же, как и в случае удаления участка, происходит «наложение» двух сигналов путём умножения каждого из них на характеризующие линии L1 и L2, но в данном случае длина каждого из сигналов равна T0. (рис. 4.25).

Умножение сигналов на характеризующие линии

Рис. 4.25. Умножение сигналов на характеризующие линии

Математически такая модификация сигнала выражается формулой:

Описанный SL-способ сшивки периодов при модификации F0 показывает наилучшие результаты, если требуемая степень изменения периода основного тона находится в диапазоне 0,5 – 2. С увеличением диапазона изменения ЧОТ естественность полученного синтезированного сигнала постепенно снижается.

Формирование длительности звуков и темпа речи. Установка значений длительностей звуковых волн аллофонов - T(t) осуществляется в соответствии с заданными целевыми значениями длительности звуковых элементов АЕ и корректируется затем с учетом её качественного и количественного состава. Регулировка темпа речи осуществляется путём корректировки длительности звуковых элементов АЕ и межсинтагменных пауз с учётом коэффициента ”податливости” каждого конкретного звука темповым изменениям.

Для ориентировочной оценки пределов изменения средней длительности звуков и пауз в зависимости от темпа речи была проведена серия следующих экспериментов. Текст, содержащий примерно 1000 знаков, был прочитан несколькими дикторами в нормальном (среднем) темпе, замедленном (в стиле «диктант») и в максимально быстром темпе. Результаты измерения относительных средних длительностей различных звуков приведены в таблице 4.4.

Таблица 4.4

Процедура установки длительности звуковых волн в последовательности аллофонов основана на предварительном вычислении функции приращения времени – dТа, которая определяет, какое количество отсчётов сигнала необходимо добавить или удалить в каждом конкретном аллофоне исходя из множества просодических факторов синтезируемой речи. Вычисление осуществляется в соответствие со следующей формулой

где Kp – просодический коэффициент, задаваемый ритмическим портретом; Тa– количество отсчётов сигнала в аллофоне; TMP – желаемый темп речи, задаваемый на интервале 0–1; Kа min – коэффициент минимально-возможного укорочения аллофона; Kа max – коэффициент максимально-возможного удлинения аллофона.

Формула (4.8) пригодна для вычисления приращения длительности аллофонов глухих согласных и пауз. Для гласных и звонких согласных функция приращения длительности должна определять, какое количество питчей необходимо добавить или удалить в каждом конкретном аллофоне исходя из множества просодических факторов синтезируемой речи. Вычисление осуществляется в соответствие со следующей формулой:

где Npa – количество питчей в аллофоне.

Кроме рассмотренных выше просодических факторов, определяющих длительность аллофонов гласных и звонких согласных, их длительность существенно зависит также от текущего значения частоты основного тона (ЧОТ) - F0, задаваемого мелодическим портретом синтезируемой синтагмы. Это связано с тем, что при модификации F0 изменяется длительность каждого питча аллофона при неизменном их общем числе. Длительность питча Tpi = 1 / F0 i может изменяться под действием интонационного фактора весьма существенно (более чем в 2 раза).

Приращение длительности аллофона под действием интонационного фактора определяется отношением (Tpa / Tpi), где Tpa – исходная средняя длительность питча аллофона. С учётом действия этого фактора формула (4.9) преобразуется к виду: