Основные характеристики корпусного метода синтеза речи по тексту

Saturday, April 27, 2024

Однако используемая БД состоит не из отдельных специально отобранных элементов компиляции, а представляет собой корпус фонограмм естественной речи, размеченной на элементы фонемной размерности с маркерами их просодических характеристик. Важным отличием корпусного подхода является также возможность использования нескольких сегментов с одинаковыми фонетическими, но различными просодическими характеристиками [73 – 75], благодаря чему естественный речевой сигнал в процессе синтеза во многих случаях не подвергается дополнительной просодической модификации. Правда, такая возможность не исключается и при использовании компиляционного метода в случае, если в БД синтезатора будут дублироваться одинаковые фонетические сегменты, но с различными просодическими характеристиками.

Схема корпусного метода синтеза речи по тексту [76] показана на рис. 2.5. Последовательность фонетических элементов и соответствующие целевые просодические параметры подаются в блок выбора речевых сегментов, который обращается к БД, содержащей речевой корпус, предварительно размеченный на акустико-фонетические элементы с маркерами просодических параметров. Из БД выбираются сегменты, наиболее близкие к требуемым как по фонетическим, так и по просодическим параметрам, которые затем, зачастую без какой-либо дополнительной модификации, соединяются в непрерывный речевой сигнал.

Схема корпусного синтезатора речи по тексту

Рис 2.5. Схема корпусного синтезатора речи по тексту

Использование сегментов естественной речи и минимум модификации речевого сигнала потенциально обеспечивает при синтезе речи хорошую передачу индивидуальных акустических характеристик. Однако при этом БД должна содержать максимальное количество всех возможных комбинаций фонетических элементов, необходимых для синтеза речи в соответствии с ипользуемыми фонетической и просодической моделями. Создание такой БД, её фонетическая и просодическая маркировка сопряжены с огромными трудностями. Кроме того, объём создаваемой БД может стать очень большим (до нескольких часов звучащей речи), что неприемлемо для ряда практических приложений.