Оценка правдоподобия синтезированного речевого клона

Wednesday, April 24, 2024

Существует несколько методов оценки качества синтезированной речи [184-187], основанной на расчёте корреляции между естественным и синтезированным речевыми сигналами в пространстве различных параметров сигнала. Однако даже лучшие из них не дают результат, приближающийся к результатам субъективной оценки. Поэтому в экспериментах по определению степени сходства синтезированного клона с естественной речью (т. е. правдоподобия речевого клона) предпочтение было отдано оценке субъективного мнения, так называемой MOS-оценке. Методика проведения эксперимента основывалась на Рекомендации P.85 ITU-T «Метод субъективной оценки качества речи устройств речевого вывода» [188] и СТБ ГОСТ Р 50840-2000 [176], и была адаптирована для данной задачи [32].

В связи с тем, что оценивалось не качество синтезируемой речи, а правдоподобие речевого клона, были подходящим образом скорректированы форматы стимулов, опросные листы и процедура прослушивания.

БД элементов компиляции для тестирования правдоподобия речевого клона. Для экспериментов использованы записи естественного голоса диктора Д1 и его синтезированного клона, а также клона голоса диктора Д2. Оба выбранных для эксперимента голоса имеют одинаковый диапазон изменения частоты основного тона: 80 – 120 Гц. Клоны голосов двух дикторов – Д1 и Д2 – синтезированы с использованием соответствующих БД элементов компиляции. Каждая из БД содержит полный набор звуковых волн аллофонов. В состав БД диктора Д1 мог быть включён, кроме того, набор звуковых волн диаллофонов и аллослогов в количестве 6818 единиц. Исходным материалом для подготовки БД послужили записи естественной речи, выполненные в студийных условиях.

С целью оценки вклада элементов компиляции различного типа в правдоподобие речевого клона сформированы семь различных БД, две из которых (мини-БД и макси-БД) использовались для синтеза клонов диктора Д1, одна (мини-БД) – для синтеза клонов диктора Д2, и четыре сформированых БД (мини-БД) включали аллофоны различного типа, взятые из мини-БД дикторов Д1 и Д2 согласно содержимому, описанному в таблице 5.5.

Все элементы баз сохранялись в формате WAVE PCM с частотой дискретизации 22050 Гц и разрядностью 16 бит.

Таблица 5.5

Содержимое фонетико-акустических БД для тестирования правдоподобия речевого клона

Стимулы для тестирования. В качестве сообщений были подобраны 20 фонетически сбалансированных фраз. Каждая фраза состояла из последовательности трёх-четырёх слов.

Все фразы были произнесены диктором Д1 в студийных условиях, идентичных условиям для подготовки фонетико-акустических баз клона. Запись производилась на цифровые носители, и была сохранена в формате WAVE PCM с частотой дискретизации 22050 Гц и разрядностью 16 бит. Фразы были произнесены в среднем темпе с интонацией перечисления. Длительность пауз между словами во фразе была приведена к значению 200 мс. Длительность фраз находилась в диапазоне 3,2 - 4,3 секунды. Частота основного тона во фразах находилась в диапазоне 80-120 Гц.

На основании подготовленных фонетико-акустических БД были синтезированы 7 групп фраз-клонов. Каждая группа состояла из 20 фраз, идентичных по содержанию фразам, произнесённым естественным голосом. Для устранения влияния просодических характеристик на восприятие синтезированной речи во всех синтезированных фразах сохранялись темп речи, длительность пауз между словами, амплитуда сигнала и значения частоты основного тона, характерные для естественных фраз.

Стимулами для тестирования и оценки являлись пары фраз одинакового содержания. При этом первая фраза в паре являлась записью естественной речи диктора Д1, а вторая – записью синтезированного клона, полученного на основе одной из БД, описанных в таблице 5.5, либо записью речи того же диктора с незначительными искажениями, применяемыми для того, чтобы естественный сигнал не был полностью идентичен исходному. В качестве искажений была выбрана частотная модуляция со следующими параметрами: частота модулирующего сигнала 10 Гц, глубина модуляции 4%. Выбранные параметры модуляции не ухудшают степень разборчивости речи и узнаваемости голоса.

Таким образом, было сформировано 20*8=160 стимулов, которые представлялись аудиторам в случайном порядке.

Пауза между фразами в паре составляла 700 мс, пауза между стимулами – 5 секунд.

Проведение эксперимента. Для оценки правдоподобия синтезированного речевого клона аудиторам было предложено ответить на вопрос «Похож ли второй из услышанных голосов на первый?», используя шкалу оценки, представленную в таблице 5.6.

Таблица 5.6

Шкала оценки сходства голосов

Каждый стимул аудиторы прослушивали один раз. Для того, чтобы аудиторы сфокусировали внимание на сходстве голосов, а не на разборчивости произносимых фраз (для минимизации напряжения при прослушивании) текстовое содержание каждого из стимулов было записано на опросном листе.

Аудиторами являлись 8 мужчин в возрасте от 21 до 60 лет, носители русского языка, без выявленных дефектов слуха. Тест проходил в тихой комнате, длился около 50 минут и был разбит на 2 сессии по 25 минут.

Статистическая обработка результатов эксперимента. Обобщенная оценка правдоподобия речевых клонов (MOS-оценка) выражается через среднее значение и дисперсию оценок всех аудиторов в соответствии со шкалой сходства голосов (таблица 5.6) по каждому из тестируемых типов БД (таблица 5.5).

Для определения статистической значимости оценок, полученных для различных типов голосов, был осуществлён однофакторный дисперсионной анализ результатов с использованием F-критерия и множественное попарное сравнение [189] с использованием критерия Тьюки достоверно значимой разности.

При однофакторном дисперсионном анализе вычислялась общая (по всем значениям) дисперсия оценок общая 2 ~σ , внутригрупповая дисперсия внгруп 2 ~σ и межгрупповая дисперсия межгруп 2 ~σ в соответствии с формулами:

где N – общее количество наблюдений (в данном тесте равное 1280), xj i –значение i-го наблюдения в j-той группе, nj – количество наблюдений в группе j (в данном тесте равное 160 для каждой группы), r – количество групп (в данном тесте равное 8).

Затем вычислялось межгрупповое dFмежгруп и внутригрупповое dFвнгруп количество степеней свободы (формулы (5.15), (5.16)) и, на их основе, межгрупповое MSмежгруп и внутригрупповое MSвнгруп среднеквадратичные значения (формулы (5.17), (5.18)):

Значение F вычислялось как отношение среднеквадратичных значений эффекта и ошибки:

Результаты вычислений представлены в таблице 5.7, где p показывает уровень статистической значимости результатов.

Таблица 5.7

Результаты однофакторного дисперсионного анализа

Таким образом, различие средних значений является значимым. Для попарной оценки значимости различий между средними значениями конкретных групп i и j вычислялось значение MSпопарное:

где Mi, Mj – средние значения оценок для групп i, j соответственно, n – количество наблюдений в группе.

Затем были вычислены границы разности с доверительным интервалом 95% и сделан вывод о значимости/не значимости разности.

Результаты вычислений представлены в таблице 5.8.

Таблица 5.8

Результаты множественного попарного сравнения

Как видно из таблицы 5.8, не является статистически значимой разность между результатами, полученными на основе пар БД База4 – База5 и База6 – База7.

Численные значения MOS-оценок. Наилучшую численную оценку правдоподобия среди созданных речевых клонов получил клон диктора Д1 (База 1), в котором использована БД звуковых волн аллофонов и мультифонов в количестве 6818 единиц. На рис. 5.22 приведены MOS-оценки правдоподобия речевого клона диктора Д1, полученного с использованием БД База1, клона диктора Д2, полученного с использованием БД База7, а также (для сравнения) MOS-оценка правдоподобия естественного речевого сигнала диктора Д1 с искусственно внесёнными незначительными искажениями. Слева на рисунке представлены значения шкалы оценок, для каждого типа голоса показано количественное значение средней оценки и среднеквадратическое отклонение (СКО) оценки.

Рис. 5.22. MOS-оценка правдоподобия речевых клонов двух дикторов в сравнении с оценкой естественного голоса диктора Д1

Как видно из диаграммы, достигнутая оценка правдоподобия речевого клона диктора Д1 – 4,33 – близка к оценке естественной речи и существенно отличается от оценки, полученной для клона диктора Д2.

Оценка вклада в правдоподобие речевого клона элементов компиляции различного уровня (аллофонов и мультифонов) иллюстрируется рис. 5.23, где приведены MOS-оценки правдоподобия клонов диктора Д1, полученные с использованием БД База1 (макси-БД) и База2 (мини-БД), а также (для сравнения) MOS-оценка правдоподобия естественного речевого сигнала диктора Д1 с искусственно внесёнными незначительными искажениями. На диаграмме показаны средние значения оценок, а также СКО оценки для каждого типа голоса.

Рис. 5.23. MOS-оценка правдоподобия речевых клонов диктора Д1 на основе двух различных баз в сравнении с оценкой естественного голоса диктора Д1

Как видно из рис. 5.23, добавление в БД диаллофонов и аллослогов даёт ощутимый эффект в восприятии правдоподобия речевого клона, причём разница в оценках БД База1 и База2 является статистически значимой.

Оценка вклада в правдоподобие речевого клона фонем того или иного типа (ударные и безударные гласные, согласные) иллюстрируется на рис. 5.24. Здесь приведены MOS-оценки правдоподобия клонов дикторов Д1 и Д2, полученные с использованием, соответственно, БД База2 (мини-БД диктора Д1) и База7 (мини-БД диктора Д2). Кроме того, приведены MOS-оценки для четырёх БД (База3 – База6), с помощью которых синтезировались «клоны-химеры», обладающие в той или иной степени свойствами голоса дикторов Д1 или Д2.

Рис. 5.24. MOS-оценка правдоподобия речевых клонов на основе шести различных баз

Как видно из диаграммы, наибольший вклад, как и ожидалось, в правдоподобие клона вносит комплекс ударных и безударных гласных (База3). Использование в клоне только ударных гласных (База4) или только безударных гласных и согласных (База5), хотя и повышает правдоподобие клона Д1 в сравнении с клоном голоса Д2, однако не столь значительно. Кроме того, как показано в таблице 5.8, разница между оценками Базы4 и Базы5 не является статистически значимой. Можно утверждать, что отсутствие в клоне либо ударных гласных, либо безударных гласных и согласных клонируемого диктора одинаково ощутимо уменьшает правдоподобие создаваемого речевого клона. Замена в базе клона Д1 только согласных на соответствующие согласные из базы клона Д2 не приводит к сколь-нибудь существенному изменению правдоподобия клона.