Функциональная схема блока синтеза просодических характеристик речи представлена на рис. 4.16.

Синтез просодических характеристик осуществляется последовательно для каждой синтагмы. На первом этапе осуществляется разметка каждой синтагмы на АЕ, каждую АЕ на элементы акцентной единицы (ЭАЕ): предъядро, ядро, заядро. Ядром АЕ, согласно используемым правилам, является полноударный гласный; все аллофоны, предшествующие полноударному гласному, являются предъядерным участком, все следующие за полноударным гласным аллофоны – заядерным участком.

Затем для каждой синтагмы необходимо выбрать соответствующие её интонационному типу просодические контуры: интонационный, ритмический, динамический. Для этого используется БД просодических портретов акцентных единиц (ПАЕ), содержащая просодические «портреты» для каждого используемого интонационного типа. БД ПАЕ может содержать несколько наборов просодических портретов, каждый из которых характеризует определённый стиль «озвучиваемого» текста (научный, официально-деловой, публицистический стиль, стиль художественной литературы, разговорный), индивидуальные просодические характеристики того или иного диктора, выражение различных эмоций в речи и т.д. В просодических портретах сохраняется также длительность межсинтагменной паузы.

Функциональная схема блока синтеза акустико-просодических характеристик

Рис. 4.16. Функциональная схема блока синтеза акустико-просодических характеристик

Далее с использование нормированных портретов F0 -ПАЕ, A-ПАЕ, T-ПАЕ для синтагмы соответствующего интонационного типа осуществляется вычисление значений F0(n), A(n), T(n) для каждого n-го аллофона элементов предъядра, ядра, заядра j-й АЕ.

Алгоритмы выбора и создания БД просодических портретов рассматриваются далее в 5-й главе в связи с решением общей задачи компьютерного клонирования персональных характеристик речи.

Процесс вычисления абсолютных значений просодических параметров для каждого аллофона синтагмы показан на рис. 4.17 на примере вычисления F0 для фразы «Мариана приехала?», фонемная запись которой «m a r’ i a n a p r’ i j’ e h a l a» . Эта фраза является синтагмой вопросительного типа, состоящей из двух АЕ. Соответствующий мелодический портрет, выбранный из БД просодических портретов, показан на рис. 4.17 (а), где ось абсцисс TN соответствует нормированному времени, ось ординат FN – нормированному значению F0.

Следующий этап – разметка каждой АЕ синтагмы на предъядро, ядро, заядро и разбиение мелодического портрета в соответствии с количеством фонем на предъядре и заядре – показан на рис. 4.17 (б). Рассматриваемая синтагма состоит из 2 АЕ: «m a r’ i a n a» и «p r’ i j’ e h a l a». Предъядро первой АЕ содержит четыре фонемы: «m, a, r’, i», ядром АЕ, как указывалось выше, является ударный гласный, в данном случае это «a», заядро первой АЕ содержит фонемы «n, a». Предъядро, ядро и заядро второй АЕ имеют, соответственно, следующий состав: «p, r’, i, j’», «e», «h, a, l, a». На рис. 4.17 (б) ось абсцисс соответствует так называемому «фонемному» времени TPh, когда все фонемы синтагмы полагаются одинаковой длительности.

На этом этапе разметки необходимо учитывать такие ситуации, как отсутствие предъядра или заядра в АЕ, а также отсутствие вокализованных фонем на предъядре и заядре. Действительно, если в таких случаях использовать «усечённый» портрет, т.е. без предъядра или без заядра, мелодический контур не будет полностью реализован, и произойдёт искажение интонации. Чтобы этого избежать, необходимо размечать начальную или конечную часть ударной гласной, соответственно, как предъядро или заядро.

Следующим этапом (см. рис. 4.17 (в)) является разметка интонационного портрета в соответствии с собственной длительностью фонем. Как видно из рисунка, сравнительно большую собственную длительность имеют ядра АЕ (ударные гласные), а также конечная гласная синтагмы; наименьшую собственную длительность в данном случае имеет согласный «j’». Ось абсцисс на рис. 4.17 (в) соответствует реальному времени T.

Процесс вычисления абсолютных значений длительности звуков Т и частоты основного тона F0

Рис. 4.17. Процесс вычисления абсолютных значений длительности звуков Т и частоты основного тона F0

На следующем этапе, показанном на рис. 4.17 (г), осуществляется корректировка собственных длительностей фонем в соответствии с ритмическим портретом синтагмы данного типа, выбранным из БД просодических портретов. В верхней части рис. 4.17 (г) показаны собственные длительности фонем синтагмы, в нижней части – доли, в соответствии с которыми происходит корректировка. Как видно из рисунка, длительность ядра первой АЕ двухакцентной синтагмы вопросительного типа увеличивается, а ядра второй АЕ – уменьшается. По оси абсцисс на рис. 4.17 (г) отложено время TP, нормированное в соответствии с ритмическим портретом синтагмы.

Последним этапом (см. рис. 4.17 (д)) является вычисление абсолютных значений частоты основного тона F0 для каждой фонемы синтагмы. Поскольку мелодический портрет задаёт нормированные значения, для вычисления абсолютных значений необходимо задать диапазон изменения F0. При этом на диапазон изменения просодических параметров будет влиять тип синтезируемого голоса: женский, мужской или детский; стиль текста, выражение эмоций и т.д. Абсолютное значение F0 вычисляется по формуле:

В рассматриваемом случае F0 min = 70 Гц, F0 max = 180 Гц. Полученные абсолютные значения F0 показаны на рис. 4.17 (д); максимальное значение, достигаемое в ядре второй АЕ, получилось равным 161 Гц, минимальное, достигаемое в конце конечной гласной синтагмы, – равным 86 Гц.

Аналогичные преобразования производятся в просодическом процессоре для вычисления абсолютных значений амплитуды и длительности каждого звука синтагмы.


 

 

 

Добавить комментарий