Методы формирования речевых и текстовых корпусов для создания индивидуализированных речевых баз данных

Saturday, July 27, 2024

Обоснованное формирование текстового и речевого корпусов, наряду с лингвистически обоснованной классификацией и выбором базовых сегментов для синтеза речи, во многом определяет степень разборчивости и естественности синтезируемой речи.

Формирование корпусов по заданным базовым сегментам, кроме основной цели – покрытия всех сегментов, должно удовлетворять следующим требованиям [109]:

– результирующий корпус должен быть фонетически полным, т.е. в фонетической транскрипции текста должны встречаться все основные фонемы речи и их варианты;

– объём корпуса должен быть, по возможности, минимизирован;

– созданный корпус должен быть фонетически сбалансированным,

т.е. распределение частот встречаемости фонем и других фонетических единиц в сформированном корпусе должно быть близким к теоретическому, полученному на достаточно представительных и больших по объёму выборках.

Последнее требование к формированию корпусов предъявляется в случае, если при выборе базовых сегментов не учитывались фонетические контексты.

Один из подходов к формированию текстовых корпусов – экспертный подход – состоит в подборе слов или фраз, составляющих корпус, опытными экспертами-фонетистами «вручную» [110] или полуавтоматически, с использованием программ-транскрайберов. Преимущества такого подхода состоят в гарантированном покрытии всего необходимого множества и в подборе наиболее подходящих для произношения слов и фраз. Экспертный подход при определённых условиях гарантирует получение минимального или близкого к минимальному объёма корпуса. К недостаткам такого подхода можно отнести большой объём «ручной» работы и требования высокой квалификации к эксперту-фонетисту, выполняющему данную работу.

Нестандартный подход к созданию текстовой БД предложен в работах [111 – 113]. В отличие от традиционных подходов, в качестве текстового корпуса предлагается использовать бессмысленные слова, «псевдослова». Преимущества данного подхода: не требуется производить выборку из набора текстов слов или фраз, удовлетворяющих заданным условиям, а объём созданной речевой БД будет гарантированно минимальным (поскольку псевдослова могут содержать только базовые сегменты). Однако данный подход имеет ряд существенных недостатков, а именно: неоднозначным и трудным для диктора является произношение псевдослов, что ухудшает качество записанной речи; записи речи будут просодически непредсказуемыми (скорее всего, не нейтральными), что также влечёт потерю качества содержимого речевого корпуса.

При автоматическом, статистическом подходе формирование текстового корпуса происходит на основании наборов текстов различных жанров [94, 114], включающих газетные статьи, научные тексты, художественные произведения. В качестве исходного набора текстов используются стенограммы записей [115]. Предполагается, что стенограммы текстов большого объёма с высокой степенью вероятности включают все возможные в языке сегменты речи. Далее осуществляется выбор из набора этих текстов его элементов (слов или фраз), из которых формируется новый текстовый корпус, так чтобы этот корпус был минимального размера и покрывал максимально возможное множество базовых сегментов для синтеза речи. Решение этой задачи формулируется как решение задачи минимизации покрытия множества.

Задача минимизации покрытия множества является NP-сложной [116], и для её решения используются различные оптимизационные алгоритмы, в частности, так называемый поглощающий («жадный») алгоритм, описанный в [117], и его различные модификации, а также генетический алгоритм, описанный в [118]. Суть «жадного» алгоритма заключается в определении наибольшего количества базовых сегментов в каждом элементе текста (такими элементами могут являться слова или предложения) и добавлении на каждом шаге алгоритма в формируемый новый текстовый корпус фрагментов исходного текста, содержащих наибольшее количество требуемых сегментов. Процесс добавления элементов продолжается до тех пор, пока формируемый текстовый корпус не будет включать все необходимые сегменты. Такой подход используется, в частности, в [119-123]. В некоторых системах в сформированный корпус вручную добавляются также элементы, содержащие редко встречающиеся сегменты [94] или же наоборот, только наиболее часто встречающиеся сегменты [114]. Такой подход фактически является комбинацией экспертного и статистического подхода.

При использовании генетического алгоритма выбирается начальный набор предложений, покрывающий все базовые элементы (в качестве такого набора могут использоваться все предложения, составляющие исходный корпус) – исходная популяция. При этом каждое предложение – индивидуум популяции. Оценка предложения происходит на основе количества базовых сегментов, которые в нём представлены. Затем итеративно осуществляются операции мутации индивидуумов, их скрещивания, селекции и отбора наиболее элитных, представительных. После каждой итерации формируется новое поколение с «лучшими» характеристиками, т.е. формируется подмножество предложений, мощность которого меньше мощности подмножества на предыдущей итерации, но покрывает набор базовых сегментов. Такой алгоритм используется, в частности, в [124].

Во всех подходах для решения задачи дальнейшей минимизации набора базовых сегментов постулируется следующее:

– исходный корпус уже покрывает все необходимые для синтеза базовые сегменты;

– в корпусе присутствуют элементы, излишние с точки зрения фонетики и просодики;

– в корпусе присутствуют элементы, которые, в силу своих нестандартных акустических и просодических характеристик никогда не будут выбраны для синтеза.

На основании двух последних постулатов и происходит уменьшение речевой БД [125-128]. Для максимального уменьшения объёма речевой БД выбирается лишь один экземпляр для каждого базового сегмента, оптимальный по просодическим характеристикам [128].

Другой подход, используемый для уменьшения речевой БД, преследующий цель сохранения уровня естественности синтезированной речи, основан на удалении из БД неиспользуемых экземпляров, а также экземпляров, просодические характеристики которых схожи с просодическими характеристиками других присутствующих в базе экземпляров того же сегмента. Определение оптимального размера речевой БД в этом случае осуществляется путём создания нескольких БД различного объёма и перцептивной оценки речи, синтезированной на основе созданных БД.

Для проверки выполнения условия 3 (обеспечение фонетической репрезентативности корпуса) вычисляется статистика встречаемости фонем в исходном наборе текстов и в результирующем текстовом корпусе. Если она приблизительно совпадает, сформированный корпус считается фонетически репрезентативным. Такую оценку, пожалуй, нельзя назвать корректной, поскольку эксперименты показывают [120], что распределение частот одних и тех же единиц в текстах довольно сильно варьирует в зависимости от жанра текста (газеты, технические описания, телефонные переговоры). Кроме того, даже если сравнивать распределения частот единиц в текстах одинакового жанра, коэффициент корреляции между такими распределениями в некоторых случаях оказывается менее 0,5.

С технической точки зрения формирование речевых корпусов осуществляется путём записи в цифровом виде естественной речи диктора. Для достижения высокого качества речи на этом этапе должно обеспечиваться выполнение следующих технических условий [129]: запись должна происходить в идентичных студийных условиях, длительность сессии записи не должна превышать «критического» для диктора времени, после которого ухудшаются акустические характеристики его голоса, расстояние до микрофона в течение всего периода записи должно быть постоянным, темп речи диктора должен быть средним или менее среднего. Следует заметить, что чем больше объём корпуса, тем сложнее выполнение этих условий.