В процессе синтеза речи по тексту тип базовых речевых единиц влияет на формирование текстовых и речевых корпусов, на методы сегментации и маркировки сигнала и на степень сохранения индивидуальных речевых характеристик в персонализированной речевой БД.

В основу классификации базовых речевых единиц положены такие понятия, как фонема, аллофон и слог, рассмотренные в первой главе.

При выборе речевых единиц для создания БД существует несколько подходов, в соответствии с которыми могут быть сформированы базовые сегменты различной длины. При выборе сегментов той или иной длины используются следующие критерии:

– объём работы, необходимый для создания речевого корпуса, последующей сегментации и маркировки;

– степень сохранения эффектов взаимодействия звуков, реализующиеся в естественном потоке речи;

– степень сохранения специфики межзвуковых переходов между выбранными элементами в естественном потоке речи.

При использовании звуковых единиц бόльшей длины в значительной степени сохраняется естественность эффектов взаимодействия звуков и характеристик межзвуковых переходов, но при этом резко возрастает количество звуковых единиц и, соответственно, объём работы для создания корпуса, его сегментации и маркировки. При использовании коротких речевых единиц меньше времени и усилий тратится на создание индивидуализированной речевой БД, но естественность проявления эффектов взаимодействия звуков и характеристик межзвуковых переходов могут быть представлены в недостаточной степени.

В [69] предложено в качестве базовых речевых единиц минимальной длительности использовать отрезки аллофонов, равные периоду основного тона для гласных, звонких и вокализованных согласных – микроволны (МВ-метод). При этом каждый аллофон описывается тремя сегментами: начальным, серединным и конечным, а переходы между ними аппроксимируются с помощью алгоритма «плавной сшивки» микроволн. МВ-метод обеспечивает минимально возможный объём БД для синтеза речи.

При таком подходе можно избежать изменения физических параметров звуков в процессе персонализированного синтеза речи, так как базовые речевые единицы обеспечивают широкий выбор периодов основного тона. С другой стороны, в процессе синтеза речи может потребоваться значительное вмешательство во внутреннюю структуру периодов между двумя граничащими сегментами, что приводит к уменьшению естественности синтезируемой речи.

В работах [93 – 95], и во многих других, в качестве базовых речевых единиц предлагается использовать дифоны – отрезки речевой волны, заключённые между серединами соседних фонем (дифонный метод). Преимущества такого подхода заключаются в сохранении в речевых сегментах естественного переходного участка между фонемами, а также в сравнительной лёгкости вычленения дифонов при сегментации естественной речи, так как в этом случае, в отличие от элементов аллофонной размерности, нет необходимости точно определять границы сегментов. Недостатком такого подхода является увеличение числа базовых единиц, поскольку в этом случае невозможно объединить предшествующие и последующие фонемы в сходные по артикуляторным признакам группы, как при аллофоном представлении сегментов, и, следовательно, время и усилия на создание текстовых и речевых корпусов существенно увеличиваются.

Преимущества выбора аллофонов в качестве базовых единиц [65, 96 – 98] состоят в том, что, во-первых, речевые единицы сохраняют эффекты взаимодействия звуков, во-вторых, количество базовых единиц относительно небольшое и варьируется в различных системах от 450 до 1500. Определённым недостатком такого подхода является требование прецизионной разметки аллофонов при сегментации естественного речевого сигнала.

Существуют системы, объединяющие преимущества использования одновременно аллофонов и дифонов [99]. В таких системах в качестве базовой речевой единицы принимается половина аллофона (или, что то же самое, половина дифона): от левой границы до середины аллофона и от середины до правой границы. К недостаткам данного подхода можно отнести необходимость дополнительной, более детальной, чем при аллофонном подходе, классификации звуков речи.

Удачным и обоснованным выглядит выбор слогов в качестве базовых речевых сегментов, поскольку слог считается минимальной речеобразующей единицей с сильным эффектом взаимодействия звуков между составляющими его элементами [100]. Эффекты взаимодействия звуков между слогами проявляется гораздо меньше. Такие системы реализованы, в частности, для японского [101], чешского [102], индийского [103] и английского [104] языков. Количество различных по фонемному содержимому наиболее частотных слогов относительно небольшое, но с учётом количественной и качественной редукции гласных оно возрастает в несколько раз. Если же учитывать, так называемые межсловные слоги, образующиеся в слитной речи, то, очевидно, в этом случае базовыми речевыми единицами должны быть все теоретически возможные слоги языка, что приводит к очень большому объёму БД элементов компиляции. Поэтому при использовании слогов в качестве базовых единиц либо создаются дополнительные единицы, такие как пары аллофонов гласный-гласный [101] или сегменты гласный – согласный+гласный [105], либо количество используемых слогов уменьшается, а в процессе синтеза речи осуществляется сглаживание акустических параметров различными методами. При этом естественность синтезируемой речи ощутимо снижается, что практически может уничтожить все преимущества, достигнутые использованием слогов в качестве элементов компиляции.

При любом из рассмотренных выше наборов базовых речевых единиц возможно их дальнейшее расширение путём добавления в БД идентичных сегментов с различными просодическими характеристиками: частоты основного тона, амплитуды и длительности.

Подходы, основанные на фонемно-аллофоном представлении элементов компиляции, можно назвать экспертно-фонетическим, в отличие от ещё одного, достаточно распространённого подхода, реализующего выбор базовых единиц на основании формально-лингвистического анализа текстов большого объёма и соответствующих им фонограмм речи.

При формально-лингвистическом подходе формирование базовых речевых единиц осуществляется на основе корпуса текстов большого объёма, представляющие различные жанры: художественные и научные тексты, журнальные статьи, сводки новостей и т.д. [106, 107]. Используется предположение, что при достаточно большом объёме корпуса в нём представлены все наиболее часто встречающиеся комбинации фонем языка, причём в множестве просодических окрасок. Поэтому при этом подходе зачастую ставится задача отразить не только фонетико-акустические, но и просодические индивидуальные характеристики речи.

При формально-лингвистическом подходе в качестве базовых речевых единиц могут использоваться все сегменты, представленные в сформированных корпусах. Длина сегмента для синтеза речи при этом не является строго определённой. Весь созданный речевой корпус размечается на речевые единицы достаточно малой длины (фонемы, полу-дифоны, дифоны), для каждой из которых вычисляются просодические характеристики: частота основного тона, амплитуда и длительность. При этом речевая БД содержит, как правило, несколько экземпляров лингвистически идентичных сегментов с различными просодическими характеристиками. При синтезе речи с использованием данного подхода входной текст транскрибируется и каждой фонеме назначаются целевые просодические характеристики. Затем при синтезе речи осуществляется поиск по речевому корпусу последовательностей сегментов, соответствующих сформированной последовательности фонем. При этом должны выполняться следующие условия:

– лингвистическое содержимое сегментов в речевой БД должно быть идентично лингвистическому содержимому последовательности фонем, используемому при синтезе речи,

– несоответствие просодических характеристик сегментов и целевых просодических характеристик последовательности фонем должно быть минимальным,

– при одинаковых условиях предпочтение отдаётся последовательности сегментов максимальной длины.

При формально-лингвистическом подходе за счёт хранения в БД нескольких экземпляров лингвистически идентичных сегментов с различными просодическими характеристиками модификация параметров звука при синтезе может не потребоваться или она будет минимальной [106]. За счёт этого предполагается достичь более высокой естественности синтезируемой речи.

К недостаткам формально-лингвистического подхода к формированию базовых сегментов можно отнести следующее:

– негарантированное покрытие аллофонного состава языка базовыми сегментами;

– наличие большого количества «избыточных» сегментов, т.е. нескольких экземпляров сегментов с совпадающими фонетическими, акустическими и просодическими характеристиками;

– недостаточный учёт эффектов редукции, коартикуляции и ассимиляции гласных [108];

– слишком большой размер БД элементов компиляции (БД элементов компиляции совпадает с БД исходного речевого корпуса и содержит, как правило, порядка нескольких часов записей речи). Это влечёт за собой определённые трудности при сегментации и маркировке сигнала;

– большой объём памяти и вычислительные затраты на хранение и оперативный поиск требуемых элементов компиляции в процессе синтеза речи.

Последнее обстоятельство делает метод синтеза речи на основе формально-лингвистического подхода практически непригодным для использования в компьютерах малой производительности (карманные ПК) и в мобильных устройствах (телефоны).


 

 

 

Добавить комментарий


Защитный код
Обновить