Для оценки разборчивости синтезируемой речи решаются следующие задачи:

– получить численную оценку слоговой разборчивости синтезированных речевых клонов;

– оценить вклад элементов компиляции различного фонетического количества (аллофоны, диаллофоны, аллослоги) в степень разборчивости синтезируемой речи;

– сравнить результаты слоговой разборчивости синтезированных речевых клонов с результатами разборчивости речи, синтезируемой с использованием наилучших известных синтезаторов русской речи [175].

В экспериментах по определению слоговой разборчивости речи вычислялась субъективная оценка. Методика проведения эксперимента основывалась на СТБ ГОСТ Р 50840-2000 «Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости» [176].

Для проведения экспериментов использовались речевые клоны, синтезированные на основе созданных БД элементов компиляции: БД мужского голоса – БД-М, и БД женского голоса – БД-Ж. Содержимое БД, использованных для синтеза речи, приведено в таблице 4.7.

Речевым материалом для тестирования являлись слоговые артикуляционные таблицы [176], которые были синтезированы на основании баз БД-М и БД-Ж с соблюдением постоянного ритма и постоянного уровня речи и сохранены на цифровые носители в формате WAVE PCM с частотой дискретизации 22050 Гц и разрядностью 16 бит. Длительность пауз между слогами была приведена к значению 3 секунды.

Кроме того, слоговые артикуляционные таблицы были синтезированы с использованием русскоязычного синтезатора компании Nuance [175]. Значения ритма речи, уровня речи, длительности межслоговых пауз, а также формат сохранения были аналогичны указанным выше.

Таблица 4.7

 

Аудиторы – 2 мужчин и 3 женщины в возрасте от 22 до 30 лет, носители русского языка, без выявленных дефектов слуха – записывали принятые слоги в бланки, составленные в соответствии с СТБ ГОСТ Р 50840-2000. Тесты проходили в тихой комнате, длительность сессии не превышала 35 минут.

Результаты эксперимента по оценке слоговой разборчивости синтезированной речи. Степень слоговой разборчивости выражается через среднее значение разборчивости S для каждого измерения, которое вычисляется в несколько этапов. Начальное значение S вычисляется по формуле:

где Si – результат единичного измерения, % (диктор-таблица-аудитор), N – число единичных измерений. Затем вычисляется среднее квадратическое отклонение (СКО) σ по формуле

и единичные измерения Si , для которых |Si – S| > 2σ, исключаются. Окончательное значение S вычисляется по формуле:

где N – число единичных измерений, k – число исключённых измерений. Результаты вычислений значений S для каждого из типов синтезируемых голосов, а также соответствующие классы качества [176] представлены в таблице 4.8.

Таблица 4.8


 

 

 

Добавить комментарий