Компьютерный синтез и клонирование речи

 Компьютерный синтез и клонирование речи

Подробнее...

От голоса робота - к персональному клону голоса человека

Из всего живого только человека Создатель наградил даром речи, благодаря чему ему удалось столь значительно развить свои интеллектуальные способности и, по мнению многих философов, стать человеку человеком. Осмелимся предположить, что нечто подобное происходит на наших глазах и с компьютером, интенсивно овладевающим широким спектром речевых технологий от работы со звуковыми файлами до синтеза, распознавания и понимания речи. В этой статье мы коснёмся лишь одного аспекта речевых технологий, а именно, синтеза речи, как наиболее близкого её авторам.

Подробнее...

Общие сведения о языке и речи

Общие сведения о языке и речи Язык определяется как совокупность фонетических, лексических и грамматических средств для выражения мыслей и чувств человека. Язык образует органическое единство с мышлением и служит важнейшим средством общения между людьми. Национальный язык представляет собой явление социальное и связан в своём возникновении и развитии с конкретным коллективом (народом).

Подробнее...

Система фонем русского языка

Под фонемой в лингвистике понимается наименьшая смыслоразличительная единица речи [19] . Вопрос о существовании каждой отдельной фонемы решается положительно, если она участвует в смысловом противопоставлении слов языка. Другими словами, данный звук является фонемой, если найдутся слова, различающиеся только этим звуком. Например, фонемы /м/ и /в/ существуют, поскольку существуют слова МОЛ и ВОЛ.

Подробнее...

Оттенки фонем и система аллофонов русской речи

Описанные выше артикуляторные признаки места и способа образования характеризуют систему фонем русского языка в статическом виде. В потоке речи в зависимости от конкретных условий акустико-артикуляторные характеристики фонем изменяются, что 30 приводит к появлению оттенков фонем, или аллофонов. Аллофоны подразделяются на позиционные и комбинаторные.

Подробнее...

Особенности преобразования «буква-фонема» (ПБФ) для русского языка

Орфографическое письмо по своей природе консервативно и отражает, как правило, произносительную форму языка в период становления письменности, в отличие от фонематической записи, которая должна отражать норму произношения, сложившуюся к настоящему времени.

Подробнее...

Просодические характеристики русской речи

Интонация синтагмы складывается последовательным соединением начальной, серединной и конечной акцентных единиц, на каждой из которых в соответствии с требуемым интонационным типом формируются необходимые контуры мелодики, ритмики и энергетики.

Подробнее...

Акустические характеристики речи

Основы акустической теории речеобразования достаточно подробно изложены в монографиях Г. Фанта и Д. Фланагана. Схематическое изображение генерации речи человеком приведено на рис. 1.7.

Подробнее...

Информационная и модуляционная структура речевого сигнала

Общепризнано, что речевой сигнал является по своей природе полиинформативным, что проявляется в многообразии типов информации, передаваемой с помощью речи.

Подробнее...

Методы персонализированного синтеза речевого сигнала

В данной главе рассматриваются принципиальные различия в методах обработки текста и генерации речевого сигнала, важные с точки зрения передачи индивидуальности голоса и речи.

Подробнее...

Основные характеристики артикуляторного метода синтеза речи по тексту

Исторически первым получил развитие артикуляторный метод, использующий физическую модель, основанную на детальном описании физиологии речеобразования.

Подробнее...

Основные характеристики формантного метода синтеза речи по тексту

При формантном методе, в отличие от артикуляторного, моделируются не физиологические процессы образования речи, а результат этих процессов: акустические характеристики речевой волны.

Подробнее...

Основные характеристики компиляционного метода синтеза речи по тексту

Основным отличием компиляционного, или иначе конкатенативного метода, от двух описанных выше является использование при синтезе речи элементарных отрезков естественной речевой волны.

Подробнее...

Основные характеристики корпусного метода синтеза речи по тексту

Последний из рассматриваемых подходов – корпусный – так же, как и компиляционный, использует БД естественной речи.

Подробнее...

Выбор метода синтеза речи по тексту для передачи индивидуальности голоса и манеры чтения

Особенности различных методов синтеза речи по тексту, показанные в разделах 2.1.1 – 2.1.4, позволяют утверждать, что наиболее подходящими для передачи индивидуальных характеристик речи являются компиляционный и корпусный методы синтеза.

Подробнее...

Методы моделирования просодических характеристик речи

Просодика играет важную роль как при восприятии смысла речи, так и при восприятии индивидуальности голоса и дикции личности.

Подробнее...

Автосегментная просодическая модель

АМ-модель представляет интонацию как линейную последовательность уровней основного тона.

Подробнее...

Просодическая модель IPO

IPO-модель, так же, как и АМ-модель, представляет интонацию как последовательность дискретных событий.

Подробнее...

Суперпозиционная просодическая модель

СП-модель основана на физиологической модели речеобразования, объединенной с иерархической теорией просодической фонологии, и представляет интонацию как последовательность событий с перекрывающимися областями.

Подробнее...

Непрерывная параметрическая просодическая модель

НП-модель интерпретирует частоту основного тона в акустической области, описывая интонацию в терминах движения F0 во времени. Одной из наиболее удачных реализаций НП-моделей является модель Tilt.

Подробнее...

Просодическая модель портретов акцентных единиц

ПАЕ-модель основана на представлении интонации фразы последовательностью просодических портретов акцентных единиц (ПАЕ).

Подробнее...

Методы выбора базовых речевых единиц для синтеза речи

В процессе синтеза речи по тексту тип базовых речевых единиц влияет на формирование текстовых и речевых корпусов, на методы сегментации и маркировки сигнала и на степень сохранения индивидуальных речевых характеристик в персонализированной речевой БД.

Подробнее...

Методы формирования речевых и текстовых корпусов для создания индивидуализированных речевых баз данных

Обоснованное формирование текстового и речевого корпусов, наряду с лингвистически обоснованной классификацией и выбором базовых сегментов для синтеза речи, во многом определяет степень разборчивости и естественности синтезируемой речи.

Подробнее...

Методы сегментации и маркировки естественного речевого сигнала

Сегментация речевого сигнала на фонетические элементы применяется в различных областях речевых технологий, в частности, в системах синтеза речи, в фонемно-ориентированных системах распознавания речи, в системах идентификации и верификации диктора.

Подробнее...

Экспериментальные исследования фонетико-акустических и просодических характеристик речи

Данная глава посвящена описанию экспериментальных исследований, направленных на выявление особенностей реализации фонетико-акустических и просодических явлений в естественной речи различных дикторов.

Подробнее...

Исследование внутрисловных и межсловных фонетико-акустических явлений в русской речи

Современные требования, предъявляемые к синтезаторам речи по тексту, делают актуальной задачу высококачественного воспроизведения слитной речи не только для полного стиля речи, но и для стиля, близкого к разговорному.

Подробнее...

Методика эксперимента

Для проведения исследования был создан специальный набор отдельных слов и набор пар слов, которые должны наиболее полно отображать внутрисловные и межсловные фонетико-акустические явления.

Подробнее...

Гласные в сочетаниях «гласная-гласная»

В отличие от внутрисловной позиции, где сочетания «гласная-гласная» встречаются достаточно редко, в позиции на стыках слов это явление проявляется весьма часто (например, на стыках с часто употребляемыми служебными словами: на, о, и, не и др.).

Подробнее...

Гласные в сочетаниях «согласная – гласная», «гласная - согласная»

На рис. 3.3 приведены примеры реализации акустических характеристик гласной, следующей после согласной, внутри слова (а, в) и на стыке двух знаменательных слов (б, г).

Подробнее...

Акустические характеристики согласных

Как показали исследования, акустические характеристики согласных внутри и на стыках слов различаются, в отличие от гласных, в значительно меньшей степени, так что межсловный переход не приводит к появлению сколько-нибудь значимых для восприятия специфических аллофонов.

Подробнее...

Исследование фонетико-акустических особенностей сегментации последовательности слов на слоги

С точки зрения образования слог представляет собой звук или несколько звуков, произносимых одним выдыхательным толчком.

Подробнее...

Исследование межъязыковых и междикторских различий просодических характеристик речи

Исследование проведено в рамках создания многоголосой системы синтеза речи по тексту на славянских языках.

Подробнее...

Методика создания мелодических портретов акцентных единиц

Для создания речевого материала нескольким русскоязычным и польск язычным дикторам предлагалось начитать тексты приблизительно одинакового научного содержания.

Подробнее...

Результаты исследования межъязыковых различий

Специфика исследуемого интонационного стиля – чтение научного текста – такова, что главное внимание было уделено наиболее «массовым» явлениям в речи – интонационным типам незавершённости и завершённости.

Подробнее...

Результаты исследования междикторских различий

Изображенные на рис. 3.16 интонационные портреты получены на базе анализа фонограмм чтения описанных выше текстов 3-мя русскоязычными и 3-мя польскоязычными дикторами.

Подробнее...

Исследование персональных особенностей синтагматического членения речи

Под синтагмой, как уже было сказано ранее, понимаются элементы фразы, которые обладают определенной самостоятельностью, а также определенной ритмической и мелодической структурой, и которые допускают некоторую паузу после того, как они были произнесены.

Подробнее...

Методика эксперимента

Проведение эксперимента осуществляется в несколько этапов.

Подробнее...

Статистические характеристики синтагматического членения

Статистическая обработка результатов экспериментальных исследований фонограмм речи проводилась с целью получения некоторых количественных характеристик, полезных с точки зрения персонализации синтагматического членения синтезируемой речи.

Подробнее...

Обсуждение результатов эксперимента

Приведенные на рисунках 3.23-3.25 статистические характеристики особенностей синтагматического членения устной речи для 3-х дикторов показывают, что речь диктора Ю. Сенкевича обладает ярко выраженными отличиями от речи 2-х других дикторов.

Подробнее...

Компьютерная модель мультиволнового синтеза речи по тексту

Описываемая в данной главе компьютерная модель синтеза речи базируется на результатах многолетних исследований авторов по созданию лингво-акустических основ синтеза речи по тексту.

Подробнее...

Структура синтезатора речи по тексту

Синтез устной речи по тексту осуществляется на основе лексико-грамматического анализа входного текста путём моделирования процессов речеобразования с учётом правил произношения звуков и интонирования, свойственных данному языку.

Подробнее...

Текстовый процессор

Текстовый процессор (рис. 4.2) включает два основных блока, которые поддерживаются соответствующими базами данных, словарями и правилами.

Подробнее...

Блок предварительной обработки

Структура блока предварительной обработки показана на рис. 4.3.

Подробнее...

Блок морфологической и акцентной маркировки слов

Структура блока морфо-акцентной маркировки слов представлена на рис.4.5.

Подробнее...

Просодический процессор

Синтез речи по тексту предполагает наличие автоматической процедуры формирования текущих контуров мелодии, силы звука, фонемной длительности и длительности пауз на основе анализа определенных свойств входного текста и его просодической разметки.

Подробнее...

Блок членения текста на предложения, пунктационные и лексические синтагмы

Структура блока членения входного текста на предложения, пунктуационные и лексические синтагмы представлена на рис. 4.9.

Подробнее...

Блок членения ПС и ЛС на синтаксические синтагмы и их разметка на акцентные единицы

Даже после разбиения предложения на ПС и ЛС их длина может оказаться слишком большой.

Подробнее...

Блок маркировки интонационного типа синтагм

Структура блока интонационной маркировки синтагм в предложении представлена на рис. 4.10.

Подробнее...

Фонетический процессор

Задачей фонетического процессора является преобразование орфографического текста в последовательность аллофонов, которая используется на этапе акустической обработки при синтезе речевого сигнала.

Подробнее...

Блок преобразования слов – фонетических исключений

На вход процессора подаётся орфографический текст синтагмы с пометами словесных ударений и границ акцентных единиц.

Подробнее...

Блок преобразования буква-фонема

На следующем этапе по стандартным правилам осуществляется преобразование буква – фонема, учитывающее произносительные особенности для русского языка.

Подробнее...

Блок преобразования фонема-аллофон

Преобразование фонема-аллофон осуществляется в два этапа. На первом этапе происходит преобразование фонем в позиционные аллофоны, на втором – преобразование позиционных аллофонов в позиционно-комбинаторные.

Подробнее...

Акустический процессор

Общая структура акустического процессора представлена на рис. 4.15.

Подробнее...

Блок синтеза акустико-просодических характеристик речевого сигнала

Функциональная схема блока синтеза просодических характеристик речи представлена на рис. 4.16.

Подробнее...

Блок синтеза акустико-фонетических характеристик речевого сигнала

Структура блока синтеза акустико-фонетических характеристик речевого сигнала представлена на рис. 4.18.

Подробнее...

Алгоритм просодической обработки речевого сигнала в акустическом процессоре

В соответствии с текстом текущей синтагмы из БД звуковых волн выбирается требуемая последовательность аллофонов и (или) мультифонов, осуществляется их последовательное соединение (конкатенация).

Подробнее...

Функциональная схема системы

Функциональная схема, входные и выходные данные, взаимодействие блоков системы синтеза речи представлены на рис 4.35. В системе реализованы описанные выше алгоритмы обработки текста и речевого сигнала.

Подробнее...

Пользовательский интерфейс системы «Мультифон»

Пользовательский интерфейс системы «Мультифон» (рис. 4.36) включает следующие блоки:

Подробнее...

Оценка разборчивости синтезированной речи

Для оценки разборчивости синтезируемой речи решаются следующие задачи:

Подробнее...

Компьютерное клонирование индивидуальных характеристик речи

Данная глава посвящена вопросам компьютерной реализации технологии клонирования индивидуальных характеристик в системе синтеза речи по тексту, базирующейся на теоретических и экспериментальных результатах, описанных в предыдущих главах.

Подробнее...

Факторы вариативности речевого сигнала

Устная речь имеет двойственную природу: семантическую и акустическую. С одной стороны, она является результатом интеллектуальной деятельности говорящего, использующего средства языка для общения с другими членами данного языкового коллектива.

Подробнее...

Основные этапы компьютерной технологии клонирования фонетико-акустических характеристик речи

К основным этапам реализации компьютерной технологии клонирования речи следует отнести следующие:

Подробнее...

Выбор и подготовка текстовых и речевых корпусов

Формирование корпусов должно удовлетворять следующим основным требованиям:

Подробнее...

Разметка речевого корпуса на фонетические и просодические сегменты

В основу классификации речевых сегментов положено понятие аллофона – позиционного и комбинаторного оттенка фонемы.

Подробнее...

Автоматическая сегментация и маркировка речевого сигнала

В разделе 2.5 проанализированы существующие методы автоматической сегментации и маркировки речевого сигнала и обоснован выбор метода анализа через синтез с использованием математического аппарата динамического программирования (ДП-метод).

Подробнее...

Создание оптимального набора элементов компиляции

В результате работы автоматической системы сегментации и маркировки речевого корпуса генерируются множественные наборы описанных выше фонетических сегментов – аллофонов и мультифонов.

Подробнее...

Алгоритмы автоматического создания БД фонетических элементов компиляции

Как уже было отмечено в разделе 5.2.4, процесс создания БД элементов компиляции реализуется с использованием следующих процедур:

Подробнее...

Алгоритмы «отсекающего отбора» речевых сегментов

Задача отбора речевых сегментов возникает по следующим причинам:

Подробнее...

«Селекция» речевых сегментов

Количество экземпляров одного и того же фонетического сегмента, прошедших операцию «отсекающий отбор», зависит от исходного количества таких экземпляров в корпусе, от качества их произношения диктором и от точности аллофонной разметки.

Подробнее...

«Диагностика» и «коррекция» сегментов

Использование создаваемых сегментов в качестве элементов компиляции при персонализированном синтезе речи по тексту накладывает требование особой точности, прецизионности разметки.

Подробнее...

«Размножение» элементов компиляции

При «размножении» элементов компиляции учитывается известный факт [183] идентичности слухового восприятия аллофонов некоторых гласных русской речи в безударных позициях, а именно:

Подробнее...

Функциональная схема системы «ФоноКлонатор»

Функциональная схема, входные и выходные данные, взаимодействие блоков системы представлены на рис 5.6. В системе реализованы описанные выше этапы создания БД элементов компиляции.

Подробнее...

Пользовательский интерфейс системы «ФоноКлонатор»

Пользовательский интерфейс системы «ФоноКлонатор» (рис. 5.7) включает следующие основные блоки:

Подробнее...

Результаты практического использования системы «ФоноКлонатор»

Система «ФоноКлонатор» использовалась для получения компьютерных клонов голосов пяти дикторов: трёх женщин и двух мужчин.

Подробнее...

Функциональная схема и алгоритмы работы системы

Функциональная схема, входные и выходные данные, взаимодействие блоков системы представлены на рисунке.

Подробнее...

Пользовательский интерфейс системы «ИнтоКлонатор»

Пользовательский интерфейс системы «ИнтоКлонатор» (рис. 5.19) включает следующие блоки:

Подробнее...

Результаты практического использования системы «ИнтоКлонатор»

Система «ИнтоКлонатор» работает на базе специально разработанного текстового корпуса, включающего «мини-текст» для создания основного набора просодических портретов и «макси-тексты» для создания расширенного набора просодических портретов русской речи (см. Приложение 1).

Подробнее...

Оценка правдоподобия синтезированного речевого клона

Для оценки правдоподобия синтезированного речевого клона решаются следующие задачи:

Подробнее...