В результате работы автоматической системы сегментации и маркировки речевого корпуса генерируются множественные наборы описанных выше фонетических сегментов – аллофонов и мультифонов.

Для создания БД элементов компиляции необходимо детально проанализировать полученные наборы для того, чтобы:

– исключить фонетические сегменты, в которых допущены ошибки при прочтении диктором или при автоматической сегментации, и отобрать только лучшие из них (операция «отсекающий отбор»);

– при наличии множественной реализации отобранных сегментов выбрать наилучшие из них (операция «селекция»);

– по определённым критериям провести оценку качества каждого из отобранных сегментов и отметить отклонения от нормы (операция «диагностика»);

– провести, по возможности, корректировку параметров сегментов с замеченными отклонениями от нормы (операция «коррекция»);

– проанализировать состав полученных элементов компиляции и при необходимости создать на их основе недостающие путём их видоизменения (операция «размножение»).

Операция «отсекающий отбор» осуществляется путём сопоставления акустических и временны́х характеристик естественного и синтезированного речевых сегментов. Если различия между ними будут выше некоторой пороговой величины, это означает, что такой сегмент не сможет обеспечить даже минимально необходимого качества синтезированной речи, достигаемого при использовании только мини-набора аллофонов, и должен быть исключён.

Операция «селекция» осуществляется путём выбора наилучшего, по определённому критерию, экземпляра сегмента в случае его множественной реализации. В качестве такого критерия используется расстояние между значениями просодических параметров каждого из экземпляров и медианными значениями просодических параметров в полученной выборке.

Операция «диагностика» осуществляется над полученными в соответствии с указанными выше критериями сегментами. Целью данной операции является выявление возможных незначительных неточностей сегментации.

Найденные сегменты с неточно определёнными границами подвергаются операции «коррекция» путём проведения специальных алгоритмических процедур по удалению некорректных и установке недостающих граничных периодов основного тона.

Операция «размножение» осуществляется над мультифонными сегментами, помещёнными в БД элементов компиляции. Существующий в БД сегмент может дублироваться под другим именем, если по своим характеристикам он способен заменить отсутствующий в созданной БД сегмент.

Алгоритмическая реализация перечисленных выше операций в системе автоматического создания БД элементов компиляции рассматривается в следующем разделе.


 

 

 

Добавить комментарий