Структура блока членения входного текста на предложения, пунктуационные и лексические синтагмы представлена на рис. 4.9.

Членение текста на предложения. Синтез речи осуществляется по предложениям, которые характеризуются достаточной степенью интонационной автономности в тексте и допускают наличие достаточно длительной паузы между ними (0,5 – 1,5 сек.). Предложение - это минимальная единица речи, представляющая собой грамматически организованное соединение слов (или только одно слово), обладающее определённой смысловой и интонационной законченностью.

Предложением считается отрезок текста, ограниченный знаками [.], [?], [?!], [!], [!!!]. Конец предложения может быть обозначен также знаком […], при условии, что следующее за ним слово начинается с большой буквы.

Предложением будем считать также заголовок всего текста или его части, в конце которого знак [.] может отсутствовать. Конец такого предложения обозначим знаком [*]. Кроме того, в отдельный тип выделяется предложение, ограниченное точкой в конце абзаца. Конец абзаца обозначим знаком [#].

Структура блока членения текста на предложения, пунктуационные и лексические синтагмы

Рис. 4.9. Структура блока членения текста на предложения, пунктуационные и лексические синтагмы

Членение предложения на пунктуационные синтагмы. Индикаторами пунктуационных синтагм (ПС) являются знаки препинания. Пунктуационными синтагмами будем считать предложение (при отсутствии в нём знаков препинания) или части предложения, ограниченные следующими знаками:

– точка с запятой [ ; ],

– двоеточие [:],

– запятая [,],

– тире [ – ],

– открывающая скобка [ ( ],

– закрывающая скобка [ ) ],

– комбинация знаков [,– ],

– знаки открытия кавычек [«], [“],

– знаки закрытия кавычек [»], [”]

Таким образом, если предложение включает n знаков препинания (включая знак конца предложения), то оно разбивается на n пунктуационных синтагм (n=1,2,3,…). Определённым исключением из этого правила может служить ситуация, когда знак препинания стоит после сочинительного союза: и, да, но и, так и, а, но, однако, зато, или, либо, то и др. В этом случае предпочтительнее будет отказаться от установки синтагматической границы на месте этого знака препинания, хотя она и допустима для некоторого индивидуального стиля речи.

Пример: “Он быстро вошел и, увидя нас, внезапно остановился”.

Членение пунктуационных синтагм на лексические синтагмы. Очевидно, что пунктуационная синтагма может быть самой разнообразной длины, не включая внутри себя ни одного знака препинания. Если длина синтагмы слишком большая (например, более 4-х слов), то следует убедиться, не содержит ли она некоторые простые лексические признаки (определённые слова или словосочетания), которые позволили бы разбить её на более мелкие лексические синтагмы (ЛС). Экспериментальные исследования показали, что во многих случаях к таковым может быть отнесено присутствие следующих лексических признаков:

– соединительного союза «И».

Пример: «Они посидели / и пошли гулять дальше». Раздел синтагмы

– перед «И».

– разделительного союза «ИЛИ».

Пример: «Стоит ли нам сейчас пообедать / или подождать до 3-х часов»? Раздел синтагмы – перед «ИЛИ».

– имён собственных (ИС).

Пример: «Сегодня певица Алла Пугачёва / решила выступить в нашем городе». Раздел синтагмы – после последнего из следующих подряд ИС.

– аббревиатур (АБ).

Пример: «Возможность победы БНФ / вызывает большие сомнения». Раздел синтагмы – после АБ.

– названий разрядов чисел (РЧ).

Пример: «Два миллиона / десять тысяч / сто пять целых / двадцать пять сотых». Раздел синтагмы – после каждого РЧ.

– названий месяцев, слов «час, минута» при расшифровке даты и времени (ДВ).

Пример: «Десять часов / пять минут / десятого июня / седьмого года». Раздел синтагмы – после ДВ.

Указанный перечень не является полным и может быть расширен в процессе анализа всё более обширного текстового корпуса.


 

 

 

Добавить комментарий