Алгоритмы «отсекающего отбора» речевых сегментов

Saturday, July 27, 2024

а) редукции в естественной речи аллофонов в некоторых позициях вплоть до полного исчезновения, в результате чего фонетическое содержимое синтезированной и естественной речевых синтагм не совпадают;

б) неточности разметки естественного сигнала, в результате чего из естественной речи «вычленяется» сегмент, акустическое содержимое которого не соответствует фонетическому содержимому.

С учётом причин возможного некорректного вычленения сегментов алгоритм «отсекающего отбора» основан на вычислении степени сходства временны́х и акустических характеристик синтезированного и естественного сегментов.

Пусть n – количество аллофонов в сегменте, m – количество экземпляров естественного сегмента. Для определения степени сходства временны́х характеристик синтезированного и j-го экземпляра естественного сегментов (где 1 ≤ j ≤ m) для ∀ i, 1 ≤ i ≤ n, вычисляются значения длительностей Ti S i-го аллофона синтезированного сегмента, а также для ∀ i, 1 ≤ i ≤ n, ∀ j, 1 ≤ j ≤ m, вычисляются значения длительностей Ti j i-го аллофона j-го экземпляра сегмента. Для определения степени сходства акустических характеристик синтезированного и j-го экземпляра естественного сегментов (где 1 ≤ j ≤ m) для ∀ i, 1 ≤ i ≤ n, ∀ j, 1 ≤ j ≤ m, вычисляются акустические расстояния Di j между i-м аллофоном синтезированного сегмента и j-го экземпляра естественного сегмента. Расстояние Di j определяется как нормированная в диапазоне 0 – 1 сумма локальных расстояний dA(n,m), расположенных на траектории оптимального соответствия синтезированного и j-го естественного сигналов, полученной в процессе ДП-сопоставления (см. раздел 5.2.3).

Степень сходства временны́х характеристик LT j и степень сходства акустических характеристик LD j j-го естественного и синтезированного сегментов вычисляются как функции принадлежности к эталонной точке метрического пространства, где в качестве эталонной реализации используется вектор соответствующих значений синтезированного сегмента. Для вычисления расстояния между векторами используется метрика l∞ [182]:

В результате операции «отсекающий отбор» из дальнейшей обработки исключаются все экземпляры p сегментов, для которых LT p ≤ β1 или LD p ≤ β2. Здесь β1, β2 – пороги сходства соответственно временны́х и акустических характеристик синтезированного и естественного сигналов. Как показали эксперименты, оптимальные результаты операции «отсекающий отбор» достигаются при β1 = 0,5 и β2 = 0,6.