Компьютерный синтез и клонирование речи
Из всего живого только человека Создатель наградил даром речи, благодаря чему ему удалось столь значительно развить свои интеллектуальные способности и, по мнению многих философов, стать человеку человеком. Осмелимся предположить, что нечто подобное происходит на наших глазах и с компьютером, интенсивно овладевающим широким спектром речевых технологий от работы со звуковыми файлами до синтеза, распознавания и понимания речи. В этой статье мы коснёмся лишь одного аспекта речевых технологий, а именно, синтеза речи, как наиболее близкого её авторам.
Общие сведения о языке и речи Язык определяется как совокупность фонетических, лексических и грамматических средств для выражения мыслей и чувств человека. Язык образует органическое единство с мышлением и служит важнейшим средством общения между людьми. Национальный язык представляет собой явление социальное и связан в своём возникновении и развитии с конкретным коллективом (народом).
Под фонемой в лингвистике понимается наименьшая смыслоразличительная единица речи [19] . Вопрос о существовании каждой отдельной фонемы решается положительно, если она участвует в смысловом противопоставлении слов языка. Другими словами, данный звук является фонемой, если найдутся слова, различающиеся только этим звуком. Например, фонемы /м/ и /в/ существуют, поскольку существуют слова МОЛ и ВОЛ.
Описанные выше артикуляторные признаки места и способа образования характеризуют систему фонем русского языка в статическом виде. В потоке речи в зависимости от конкретных условий акустико-артикуляторные характеристики фонем изменяются, что 30 приводит к появлению оттенков фонем, или аллофонов. Аллофоны подразделяются на позиционные и комбинаторные.
Орфографическое письмо по своей природе консервативно и отражает, как правило, произносительную форму языка в период становления письменности, в отличие от фонематической записи, которая должна отражать норму произношения, сложившуюся к настоящему времени.
Интонация синтагмы складывается последовательным соединением начальной, серединной и конечной акцентных единиц, на каждой из которых в соответствии с требуемым интонационным типом формируются необходимые контуры мелодики, ритмики и энергетики.
Основы акустической теории речеобразования достаточно подробно изложены в монографиях Г. Фанта и Д. Фланагана. Схематическое изображение генерации речи человеком приведено на рис. 1.7.
Общепризнано, что речевой сигнал является по своей природе полиинформативным, что проявляется в многообразии типов информации, передаваемой с помощью речи.
В данной главе рассматриваются принципиальные различия в методах обработки текста и генерации речевого сигнала, важные с точки зрения передачи индивидуальности голоса и речи.
Исторически первым получил развитие артикуляторный метод, использующий физическую модель, основанную на детальном описании физиологии речеобразования.
При формантном методе, в отличие от артикуляторного, моделируются не физиологические процессы образования речи, а результат этих процессов: акустические характеристики речевой волны.
Основным отличием компиляционного, или иначе конкатенативного метода, от двух описанных выше является использование при синтезе речи элементарных отрезков естественной речевой волны.
Последний из рассматриваемых подходов – корпусный – так же, как и компиляционный, использует БД естественной речи.
Особенности различных методов синтеза речи по тексту, показанные в разделах 2.1.1 – 2.1.4, позволяют утверждать, что наиболее подходящими для передачи индивидуальных характеристик речи являются компиляционный и корпусный методы синтеза.
Просодика играет важную роль как при восприятии смысла речи, так и при восприятии индивидуальности голоса и дикции личности.
АМ-модель представляет интонацию как линейную последовательность уровней основного тона.
IPO-модель, так же, как и АМ-модель, представляет интонацию как последовательность дискретных событий.
СП-модель основана на физиологической модели речеобразования, объединенной с иерархической теорией просодической фонологии, и представляет интонацию как последовательность событий с перекрывающимися областями.
НП-модель интерпретирует частоту основного тона в акустической области, описывая интонацию в терминах движения F0 во времени. Одной из наиболее удачных реализаций НП-моделей является модель Tilt.
ПАЕ-модель основана на представлении интонации фразы последовательностью просодических портретов акцентных единиц (ПАЕ).
В процессе синтеза речи по тексту тип базовых речевых единиц влияет на формирование текстовых и речевых корпусов, на методы сегментации и маркировки сигнала и на степень сохранения индивидуальных речевых характеристик в персонализированной речевой БД.
Обоснованное формирование текстового и речевого корпусов, наряду с лингвистически обоснованной классификацией и выбором базовых сегментов для синтеза речи, во многом определяет степень разборчивости и естественности синтезируемой речи.
Сегментация речевого сигнала на фонетические элементы применяется в различных областях речевых технологий, в частности, в системах синтеза речи, в фонемно-ориентированных системах распознавания речи, в системах идентификации и верификации диктора.
Данная глава посвящена описанию экспериментальных исследований, направленных на выявление особенностей реализации фонетико-акустических и просодических явлений в естественной речи различных дикторов.
Современные требования, предъявляемые к синтезаторам речи по тексту, делают актуальной задачу высококачественного воспроизведения слитной речи не только для полного стиля речи, но и для стиля, близкого к разговорному.
Для проведения исследования был создан специальный набор отдельных слов и набор пар слов, которые должны наиболее полно отображать внутрисловные и межсловные фонетико-акустические явления.
В отличие от внутрисловной позиции, где сочетания «гласная-гласная» встречаются достаточно редко, в позиции на стыках слов это явление проявляется весьма часто (например, на стыках с часто употребляемыми служебными словами: на, о, и, не и др.).
На рис. 3.3 приведены примеры реализации акустических характеристик гласной, следующей после согласной, внутри слова (а, в) и на стыке двух знаменательных слов (б, г).
Как показали исследования, акустические характеристики согласных внутри и на стыках слов различаются, в отличие от гласных, в значительно меньшей степени, так что межсловный переход не приводит к появлению сколько-нибудь значимых для восприятия специфических аллофонов.
С точки зрения образования слог представляет собой звук или несколько звуков, произносимых одним выдыхательным толчком.
Исследование проведено в рамках создания многоголосой системы синтеза речи по тексту на славянских языках.
Для создания речевого материала нескольким русскоязычным и польск язычным дикторам предлагалось начитать тексты приблизительно одинакового научного содержания.
Специфика исследуемого интонационного стиля – чтение научного текста – такова, что главное внимание было уделено наиболее «массовым» явлениям в речи – интонационным типам незавершённости и завершённости.
Изображенные на рис. 3.16 интонационные портреты получены на базе анализа фонограмм чтения описанных выше текстов 3-мя русскоязычными и 3-мя польскоязычными дикторами.
Под синтагмой, как уже было сказано ранее, понимаются элементы фразы, которые обладают определенной самостоятельностью, а также определенной ритмической и мелодической структурой, и которые допускают некоторую паузу после того, как они были произнесены.
Проведение эксперимента осуществляется в несколько этапов.
Статистическая обработка результатов экспериментальных исследований фонограмм речи проводилась с целью получения некоторых количественных характеристик, полезных с точки зрения персонализации синтагматического членения синтезируемой речи.
Приведенные на рисунках 3.23-3.25 статистические характеристики особенностей синтагматического членения устной речи для 3-х дикторов показывают, что речь диктора Ю. Сенкевича обладает ярко выраженными отличиями от речи 2-х других дикторов.
Описываемая в данной главе компьютерная модель синтеза речи базируется на результатах многолетних исследований авторов по созданию лингво-акустических основ синтеза речи по тексту.
Синтез устной речи по тексту осуществляется на основе лексико-грамматического анализа входного текста путём моделирования процессов речеобразования с учётом правил произношения звуков и интонирования, свойственных данному языку.
Текстовый процессор (рис. 4.2) включает два основных блока, которые поддерживаются соответствующими базами данных, словарями и правилами.
Структура блока предварительной обработки показана на рис. 4.3.
Структура блока морфо-акцентной маркировки слов представлена на рис.4.5.
Синтез речи по тексту предполагает наличие автоматической процедуры формирования текущих контуров мелодии, силы звука, фонемной длительности и длительности пауз на основе анализа определенных свойств входного текста и его просодической разметки.
Структура блока членения входного текста на предложения, пунктуационные и лексические синтагмы представлена на рис. 4.9.
Даже после разбиения предложения на ПС и ЛС их длина может оказаться слишком большой.
Структура блока интонационной маркировки синтагм в предложении представлена на рис. 4.10.
Задачей фонетического процессора является преобразование орфографического текста в последовательность аллофонов, которая используется на этапе акустической обработки при синтезе речевого сигнала.
На вход процессора подаётся орфографический текст синтагмы с пометами словесных ударений и границ акцентных единиц.
На следующем этапе по стандартным правилам осуществляется преобразование буква – фонема, учитывающее произносительные особенности для русского языка.
Преобразование фонема-аллофон осуществляется в два этапа. На первом этапе происходит преобразование фонем в позиционные аллофоны, на втором – преобразование позиционных аллофонов в позиционно-комбинаторные.
Общая структура акустического процессора представлена на рис. 4.15.
Функциональная схема блока синтеза просодических характеристик речи представлена на рис. 4.16.
Структура блока синтеза акустико-фонетических характеристик речевого сигнала представлена на рис. 4.18.
В соответствии с текстом текущей синтагмы из БД звуковых волн выбирается требуемая последовательность аллофонов и (или) мультифонов, осуществляется их последовательное соединение (конкатенация).
Функциональная схема, входные и выходные данные, взаимодействие блоков системы синтеза речи представлены на рис 4.35. В системе реализованы описанные выше алгоритмы обработки текста и речевого сигнала.
Пользовательский интерфейс системы «Мультифон» (рис. 4.36) включает следующие блоки:
Для оценки разборчивости синтезируемой речи решаются следующие задачи:
Данная глава посвящена вопросам компьютерной реализации технологии клонирования индивидуальных характеристик в системе синтеза речи по тексту, базирующейся на теоретических и экспериментальных результатах, описанных в предыдущих главах.
Устная речь имеет двойственную природу: семантическую и акустическую. С одной стороны, она является результатом интеллектуальной деятельности говорящего, использующего средства языка для общения с другими членами данного языкового коллектива.
К основным этапам реализации компьютерной технологии клонирования речи следует отнести следующие:
Формирование корпусов должно удовлетворять следующим основным требованиям:
В основу классификации речевых сегментов положено понятие аллофона – позиционного и комбинаторного оттенка фонемы.
В разделе 2.5 проанализированы существующие методы автоматической сегментации и маркировки речевого сигнала и обоснован выбор метода анализа через синтез с использованием математического аппарата динамического программирования (ДП-метод).
В результате работы автоматической системы сегментации и маркировки речевого корпуса генерируются множественные наборы описанных выше фонетических сегментов – аллофонов и мультифонов.
Как уже было отмечено в разделе 5.2.4, процесс создания БД элементов компиляции реализуется с использованием следующих процедур:
Задача отбора речевых сегментов возникает по следующим причинам:
Количество экземпляров одного и того же фонетического сегмента, прошедших операцию «отсекающий отбор», зависит от исходного количества таких экземпляров в корпусе, от качества их произношения диктором и от точности аллофонной разметки.
Использование создаваемых сегментов в качестве элементов компиляции при персонализированном синтезе речи по тексту накладывает требование особой точности, прецизионности разметки.
При «размножении» элементов компиляции учитывается известный факт [183] идентичности слухового восприятия аллофонов некоторых гласных русской речи в безударных позициях, а именно:
Функциональная схема, входные и выходные данные, взаимодействие блоков системы представлены на рис 5.6. В системе реализованы описанные выше этапы создания БД элементов компиляции.
Пользовательский интерфейс системы «ФоноКлонатор» (рис. 5.7) включает следующие основные блоки:
Система «ФоноКлонатор» использовалась для получения компьютерных клонов голосов пяти дикторов: трёх женщин и двух мужчин.
Функциональная схема, входные и выходные данные, взаимодействие блоков системы представлены на рисунке.
Пользовательский интерфейс системы «ИнтоКлонатор» (рис. 5.19) включает следующие блоки:
Система «ИнтоКлонатор» работает на базе специально разработанного текстового корпуса, включающего «мини-текст» для создания основного набора просодических портретов и «макси-тексты» для создания расширенного набора просодических портретов русской речи (см. Приложение 1).
Для оценки правдоподобия синтезированного речевого клона решаются следующие задачи: