Использование создаваемых сегментов в качестве элементов компиляции при персонализированном синтезе речи по тексту накладывает требование особой точности, прецизионности разметки.

Целью операции «диагностика» является тестирование полученных сегментов на наличие некорректно определённых границ. Обнаруженные неточности разметки «корректируются» путём удаления граничных периодов основного тона и добавления необходимых периодов.

Операция «диагностика» осуществляется путём попарного определения степени сходства временны́х и акустических характеристик сигнала на первом и втором периодах основного тона сегмента, а также на предпоследнем и последнем периодах. «Диагностика» осуществляется только в случае, когда граничные периоды принадлежат вокализованным аллофонам.

Степень сходства акустических характеристик LD и степень сходства временны́х характеристик LT вычисляются как функции принадлежности к эталонной точке метрического пространства, для чего соответствующие значения на пред-граничных периодах принимаются за эталонные. Для определения расстояния между двумя точками по акустическим характеристикам используется метрика l1, расстояние по временны́м характеристикам определяется как отношение длительностей периодов:

где si u – значение сигнала на i-том отсчёте граничного периода, si p – значение сигнала на i-том отсчёте пред-граничного периода, T u, T p – длительности, соответственно, граничного и пред-граничного периодов. Суммарная степень сходства периодов вычисляется как

где α – весовой коэффициент, 0 ≤ α ≤ 1. Левая или правая граница сегмента считается некорректно определённой, если значение степени сходства, соответственно, первого и второго или последнего и предпоследнего периодов L ≤ β, где β – порог сходства периодов. Значения α и β рассчитаны экспериментально и равны, соответственно, 0,4 и 0,7. Область значений LD и LT, при которых границы сегмента считаются корректно определёнными, в соответствии с формулой 5.9 и значениями α = 0,4 и β = 0,7, показана на рис. 5.5.

 Область допустимых значений степеней сходства акустических LD и временных LT характеристик периодов

Рис. 5.5. Область допустимых значений степеней сходства акустических LD и временных LT характеристик периодов при весовом коэффициенте α = 0,4 и пороге сходства β = 0,7

«Коррекция» осуществляется в случае, когда «неточный» период не является единственным периодом аллофона, и заключается в удалении граничного периода и дублировании пред-граничного. В результате количество периодов основного тона сегмента не изменяется.

Сегменты, прошедшие операции «отсекающий отбор», «селекция», «диагностика» и «коррекция», помещаются в БД элементов компиляции.


 

 

 

Добавить комментарий