Выбор и подготовка текстовых и речевых корпусов

Saturday, July 27, 2024

Одновременное выполнение трёх указанных требований путём использования какого-либо общедоступного корпуса текстов и соответствующих ему речевых фонограмм практически невыполнимо. Нет никакой гарантии, что даже при чтении очень обширного текста в нём встретятся все основные варианты фонем – аллофоны и все варианты интонационных конструкций. Даже если такое случится, этот текст будет слишком длинным, для того чтобы он мог быть произнесён конкретным диктором. Опыт создания речевого корпуса для синтеза английской речи [178] показал, что для удовлетворения первых двух требований необходимо осуществить запись от 10 до 40 часов речи. При этом третье требование явно не удовлетворяется.

Хорошо известно, что обычный человек утомляется даже после 15- ти минут непрерывного чтения, а после 20 минут чтения его голос может вообще сорваться. Даже для профессионального диктора 45 минут непрерывного чтения с сохранением всего комплекса индивидуальных характеристик речи - довольно тяжёлая задача.

В связи со сказанным с целью одновременного выполнения трёх указанных выше требований для создания БД элементов компиляции разработан минимальный по объёму корпус, содержащий два различных текста: «мини-текст», удовлетворяющий требованию фонетической полноты и «макси-текст», удовлетворяющий требованию фонетической сбалансированности.

Фонетический «мини-текст» создан путём специального подбора минимального количества слов, в которых реализуются все основные аллофоны, требуемые для синтеза речи. Слова мини-текста подобраны таким образом, что присутствующие в них фонемы имеют максимально возможный (в пределах заданных групп левых и правых контекстов) контраст спектральных характеристик. Такой выбор слов упрощает задачу анализа и сегментации речевого сигнала, созданного на основе «мини-текста», и способствует повышению точности сегментации.

Мини-текст состоит из 69 фраз, включающих 318 слов. Содержимое мини-текста приведено в Приложении 1.1.

В качестве «макси-текста» используются «тесты для оценки фразовой разборчивости речи» [173], фонетическая сбалансированность которых декларируется разработчиками ГОСТ 16600-72. Текст состоит из 500 фраз, включающих 1741 слово. Содержимое макси-текста приведено в Приложении 1.2, где позиция ударения помечена знаком «+». Статистический анализ фонетической структуры макси-текста приведен в Приложении 3.

Для создания набора интонационных портретов синтагм русской речи создан просодический «мини-текст» путём специального подбора минимального количества фраз, в которых реализуются основные интонационные конструкции (интонемы) из числа требуемых для синтеза речи.

Просодический «мини-текст» состоит из 28-ми предложений, включающих 67 синтагм различного интонационного типа. Содержимое просодического мини-текста приведено в Приложении 1.3.

Кроме мини-текста, для создания расширенного набора интонационных портретов синтагм русской речи использован текстовый корпус (см. Приложение 1.4), включающий тексты различных жанров:

1) юмористический рассказ со множеством диалоговых включений,

2) сбалансированный текст для анализа просодических характеристик славяноворящих дикторов,

3) сбалансированный текст для анализа просодических характеристик неславяноворящих дикторов.

Последние два текста разработаны на филологическом факультете С-пГУ для целей тестирования индивидуальных языковых особенностей речи дикторов.

Создание речевого корпуса – запись естественной речи диктора при прочтении текстового корпуса – осуществляется в студийных условиях. В процессе записи должны соблюдаться следующие технические требования: расстояние до микрофона в течение всего времени записи было постоянным, длительность сессии записи составляла не более 10 минут при среднем темпе речи дикторов. Кроме того, тексты, предназначенные для клонирования фонетико-акустических характеристик речи, следует читать с минимальными интонационными модификациями голоса.