Структура блока морфо-акцентной маркировки слов представлена на рис.4.5.

Морфологическая маркировка заключается в указании для каждого слова входного текста его принадлежности к той или иной части речи, а также дополнительных морфологических характеристик, определённых для данной части речи.

Акцентная маркировка заключается в маркировке ударений в словах с сильным или слабым ударением с последующим присоединением к ним безударных слов, образующих вместе с ударным словом одно фонетическое слово.

Структура блока морфологической маркировки
Рис. 4.5. Структура блока морфологической маркировки, расстановки ударений и формирования фонетических слов

Морфологическая маркировка. При морфологической маркировке каждое слово текста должно снабжаться пометами названия части речи, а также дополнительными грамматическими категориями, характерными для данной части речи. Для определения этой информации используется грамматический словарь.

В русском языке десять основных частей речи: имя существительное, местоимение-существительное, имя прилагательное, имя числительное, глагол, наречие, предлог, союз, частица, междометие. Некоторые глагольные формы, такие как причастие и деепричастие, также имеет смысл отнести к самостоятельным частям речи.

Дополнительные грамматические категории для частей речи могут быть словоизменительными, когда члены этих категорий могут быть представлены формами одного и того же слова. Например: категория падежа и числа существительного, категории лица, числа, времени и наклонения глагола, категория степени сравнения наречия и т.д. Категории для частей речи могут несловоизменительными, когда члены этих категорий не могут быть представлены формами одного и того же слова. Например: категория рода существительных и категория вида глагола. Знаменательные части речи: имя существительное, местоимение-существительное, имя прилагательное, имя числительное, глагол и наречие – обладают как словоизменительными, так и несловоизменительными категориями. Служебные части речи: предлог, союз, частица, междометие – обладают только несловоизменительными категориями. Определение грамматических категорий частей речи необходимо в дальнейшем для адекватной просодической маркировки текста.

Наиболее полно все категориальные характеристики и свойства лексических единиц (около 100 тыс. знаков) для русского языка отражены в «Грамматическом словаре русского языка» А.А. Зализняка [174]. Здесь в единстве представлены все совокупности форм того или иного слова, что позволяет найти необходимые сведения об изменяемости отдельно взятой лексемы. В данном словаре информация о грамматической парадигме слова (где под парадигмой понимается совокупность всех грамматических форм некоторого слова) даётся с помощью системы условных обозначений и индексов.

В качестве иллюстрации приведём полную словоизменительную парадигму имени существительного <конкурс м 1а> и глагола <выбрасывать нсв 1а>. Символ <м> указывает на целый ряд несловоизменительных признаков, характеризующих слово «конкурс», а именно: существительное, неодушевлённое, мужского рода, субстантивного склонения; <1> обозначает тип склонения, зависящий от окончания основы слова; <a> –схема ударения (постоянное ударение на основе). Для глагола выбрасывать <нсв> выступает характеристикой вида (глагол несовершенного вида); цифра индекса указывает на тип спряжения, в зависимости от которого выбираются способы построения форм глагольной парадигмы. В данном случае <1> показывает, что инфинитив заканчивается на -ать, -ять или -еть, а формы глагола 1-го и 3-го лица единственного числа настоящего времени соответственно: - аю, -ает; -яю, -яет; -ею, -еет. Наконец, по индексу <а> узнаём схему ударения (постоянное ударение на основе). Помимо указанной информации, глагол также обладает специфическими формами причастия, деепричастия и целым набором категориальных значений, что оказывает существенное влияние на словоизменительные характеристики слов.

Словоизменительные категории существительного и прилагательного показаны на рис. 4.6, 4.7 соответственно. Количество слов в грамматическом словаре А.А. Зализняка, приходящихся на каждую часть речи, а также количество словоформ в парадигмах представлено в табл. 4.1.

Словоизменительные категории существительных

Рис. 4.6. Словоизменительные категории существительных

Словоизменительные категории прилагательных

Рис. 4.7. Словоизменительные категории прилагательных

 


Таблица 4.1

Количество слов и словоформ в грамматическом словаре А.А. Зализняка


Общее количество слов в исходном словаре равно 98 222, из которых в русском языке порождается более двух миллионов словоформ.

Маркировка словесных ударений. Для расстановки ударений используется грамматический словарь с пометами позиции ударения в словоформе. Знаменательные части речи, как правило, относятся к полноударным словам с одним ударением. Однако некоторые полноударные слова могут иметь наряду с одним сильным (полным) ударением, помечаемым знаком (+), одно или несколько слабых (частичных), помечаемым знаком (=). К таким словам относятся, в частности, составные прилагательные и существительные, например «ра=диолокацио+нный», «мо=тове=лозаво+д».

Следует отметить, что определённое количество знаменательных слов - омографов - могут иметь различное ударение в разных грамматических категориях при одинаковом буквенном составе. Например, некоторые существительные имеют одинаковое написание в родительном падеже единственного числа и в именительном падеже множественного числа: «руки+», «ру+ки». Для разрешения таких ситуаций, т.е. для определения точной грамматической категории слова, необходим более глубокий анализ текста.

На этапе расстановки ударений необходимо учитывать также, что какой бы ни был большой словарь, в тексте вполне может встретиться слово, которое отсутствует в нём. Для маркировки ударения в таком слове (поскольку без ударения его озвучить нельзя) можно применять один из двух способов: устанавливать полное ударение на основе статистической информации о словесных ударениях либо устанавливать 125 частичное ударение на каждом слоге. Во втором случае слово будет «прочитано» по слогам. При использовании первого способа существует вероятность того, что ударение будет установлено неверно, и такое слово не будет воспринято слушающим правильно. Поэтому второй способ представляется более разумным.

Формирование фонетических слов. Многие служебные слова могут произносится без явно выраженного ударения. К безударным словоформам относятся неслоговые предлоги в, к, с и частицы б, ж, ль, а также односложные предлоги без, во, для, за и др. и частицы де, ка, ан, бы и др. Например, в словосочетаниях «доехать до Киева», «прибыл бы вовремя» предлог до и частица бы произносятся, как правило, без ударения и присоединяются соответственно к последующему и предшествующему словам.

После маркировки словесных ударений необходимо присоединить каждое безударное слово к близлежащему (предыдущему или последующему) ударному слову. Операцию присоединения безударных слов к ударным выполняет блок формирования фонетических слов. Под фонетическим словом понимается одно или несколько орфографических слов, имеющих одно общее ударение. Для присоединения безударных слов к частично-или полноударным словам используется набор правил, учитывающих грамматические характеристики безударного слова, а также окружающих его слов. Причём к предыдущему слову присоединяются лишь частицы «бы», «-де», «дескать», «-ли», «-же», «мол», «-то», «-ка», «-либо», «-нибудь».

Например, в предложении: «Мальчик успел бы вовремя, если бы не остановился поболтать с другом», - предлог «с» присоединяется к последующему слову (существительному): «сЪдругом», а частицы «бы»

– к предыдущим словам (глаголу и союзу): «успелЪбы», «еслиЪбы». Здесь буква Ъ используется как символ присоединения.


 

 

 

Добавить комментарий