Грачкова Мария Александровна, Митрофанова Ольга Александровна, Романов



Скачать 61.12 Kb.
Дата20.05.2013
Размер61.12 Kb.
ТипДокументы
автоматическое разрешение лексико-семантической неоднозначности и выделение конструкций на основе многоуровневой разметки корпуса*
Грачкова Мария Александровна, Митрофанова Ольга Александровна,
Романов Сергей Владимирович, Шиморина Анастасия Сергеевна, Шурыгина Александра Сергеевна
 Санкт-Петербургский государственный университет

Кафедра математической лингвистики

Санкт-Петербург, Россия

maaag86@mail.ru, alkonost-om@yandex.ru, complefor@rambler.ru, shinas@yandex.ru, sanyana@gmail.com
Ляшевская Ольга Николаевна
Институт русского языка им. В. В. Виноградова РАН

Москва, Россия

Университет Тромсе

Трумсё, Норвегия

olesar@mail.ru
Обсуждаемый в докладе научный проект имеет целью автоматическое извле­чение лингвистической информации из контекстов Нацио­нального корпуса русского языка (НКРЯ, http://www.ruscorpora.ru/) для построения комплексного лексикогра­фического ресурса – каталога русских конструкций.

Предлагаемый подход к достижению указанной цели предполагает автома­тическую классификацию контекстов, направленную на разрешение лексико-семанти­ческой неоднозначности слов и идентификацию конструкций. Данные процедуры осуществляются с помощью программного обеспечения, разрабатываемого на языке Python. Компьютерный инструмент, используемый в экспериментах, позволяет созда­вать векторную модель экспериментальной выборки; в качестве базового алгоритма выбран алгоритм классификации с учителем. Программа работает в двух режимах: формирование классов контекстов, соотносимых с отдельными значениями целевого слова; генерация списков наиболее частотных кон­ст­рук­ций, в которых реализуется то или иное значение целевого слова. При автоматической обработке контекстов учитываются раз­ные типы контекстных маркеров, присутствующих в многоуровневой разметке НКРЯ (теги леммы lex, морфологические теги gr, лекси­ко-семантические теги sem, комбинации тегов разных типов lex+gr, lex+sem, sem+gr, lex+sem+gr). Возможно варьирование таких параметров экспериментов, как ширина контекстного окна [-l; +r], обработка с учетом/без учета весов контекстных элементов. Компьютерный инстру­мент также предоставляет допол­ни­тельные статистические данные, в том числе о точности и полноте результатов тестов.

На материале НКРЯ проводятся разноплановые эксперименты по разрешению лексико-семантической неоднозначности слов и извлечению конструкций.
Исследо­ванию подвергаются представительные выборки контекстов употребления русских существительных (вид, глава, дом, лук, орган и пр.). В ходе оценки оптимальных критериев автоматического разрешения лексико-семан­тической неоднозначности слов в контекстах НКРЯ было доказано, что наилучшие результаты достигаются при выборе комбинации тегов леммы lex и лексико-семантических тегов sem в качестве контекстных маркеров значений. В каждой из серий экспериментов проводится 1) анализ различных контекстных маркеров значений целевых слов по данным НКРЯ и 2) анализ конструкций, включающих контекстные маркеры и целевые слова. Например, лексико-семанти­ческие теги со значе­нием непредметных имен восприятия (r:abstr t:perc – орган чувств, орган зрения, орган слуха) регулярно встречаются в правостороннем окружении слова орган в значении Часть организма, имеющая опреде­лен­ное строение и специальное назначение, что позволяет их рассматривать как контекстные маркеры указанного значения. Среди регулярных левосторонних соседей слова орган в значении Часть организма, имеющая опреде­лен­ное строение и специальное назначение присут­ствуют прилагательные чело­веческий, донорский (t:hum), а также существительные заболевание, болезнь (r:abstr t:disease pt:class) и пр., также являющиеся специфическими контекстными маркерами данного значения. Указанные контекстные маркеры не встречаются в окружении слова орган в иных значениях. Сочетания целевых слов и установленных кон­текст­ных маркеров отдельных значений, характеризующиеся частотностью и устойчивостью, рассматриваются как конструкции. Например, таковы сочетания слова вид в значении Подразделение в систематике, входящее в состав высшего раздела – рода; разновидность, тип с правосторонними коллокатами типа спорт (r:abstr t:sport); деятельность (r:abstr der:v); сочетания слова вид в значении Внешность, видимый облик; состояние с левосторонними коллокатами типа внешний (r:rel t:place der:adv); делать (d:root); сделать (d:pref | t:impact:creat t:be:appear ca:caus) и пр. Анализ конструкций, проведенный для ряда однозначных и многозначных целевых слов, объединенных общим значением, позволил проверить гипотезу о единстве контекстных маркеров значений слов из одной и той же лексико-семантической группы. Так, были исследо­ваны многозначные (ка­ран­даш, коса, лом, ножницы, щетка) и однозначные (бритва, веник, весло, лопата, метла, топор) существительные – названия инструментов. Основные лексико-семантические теги, соответст­вую­щие инструментальному значению: (r:concr t:tool:instr). Результаты экспериментов свиде­тель­ствуют о том, что в качестве регулярных кон­текст­ных маркеров инструмен­тального значения как для однозначных, так и для многозначных слов могут рассматри­ваться существительные – названия инструментов и их частей: лопата – кирка (r:concr t:tool:instr), черенок (r:concr t:tool pt:part) и пр.; прилагательные, обознача­ющие материал, из которого изготовлен инс­тру­мент, и какие-либо отличи­тельные характеристики инструментов: веник – березовый (r:rel der:s dt:plant); бритва – острая (r:qual t:physq) и пр.; глаголы физического дейст­вия: весло – грести (t:move ca:caus d:root); топор – рубать (ca:caus d:root der:v) и пр.

Тип и степень детализации лексико-семантической разметки контекстов НКРЯ позво­ляют сформировать множество контекстных маркеров того или иного значе­ния на основе выборок контекстов; обобщить данные о контекстных маркерах с точки зрения их принадлежности к лек­сико-семантическим классам; описать классы конструкций, связанных с тем или иным значением; использовать полученную таким образом модель сочетаемости для автома­тического построения каталога конструкций на основе НКРЯ.

* Работа выполнена при финансовой поддержке РФФИ (проект 10-06-00586-а).

Похожие:

Грачкова Мария Александровна, Митрофанова Ольга Александровна, Романов iconНа правах рукописи Стрыгина Мария Александровна

Грачкова Мария Александровна, Митрофанова Ольга Александровна, Романов iconСаратов / Волжский Ачкасова Ольга Александровна

Грачкова Мария Александровна, Митрофанова Ольга Александровна, Романов iconКузина Ольга Александровна Дата рождения 26. 12. 1983 г

Грачкова Мария Александровна, Митрофанова Ольга Александровна, Романов iconРассмотрено
Ефремова Ольга Александровна учитель географии и краеведения моу сош №6 г. Вольска
Грачкова Мария Александровна, Митрофанова Ольга Александровна, Романов iconСергей Александрович в 1892 году. Фотограф В. Лапре Фотоателье "К. Е. фон Ганн и к 0". 1913 год с лейтенантом Павлом Вороновым на Штандарте в 1913 году
Аксель, королева Английская Александра, в к. Федор Александрович (сын в к. Александра Михайловича), король Дании Христиан IX, вдовствующая...
Грачкова Мария Александровна, Митрофанова Ольга Александровна, Романов icon«Россия во второй половине XVIII века». Авторы составители: Гевондян Людмила Ивановна (моу сош №8 г. Конаково), Рязанова Ольга Александровна (моу сош №8 г. Конаково), Бурова Татьяна Анатольевна (моу «Тверской лицей», г. Тверь)
Диагностические материалы по истории России в формате егэ по теме «Россия во второй половине XVIII века». Авторы – составители: Гевондян...
Грачкова Мария Александровна, Митрофанова Ольга Александровна, Романов iconШейнер ольга Александровна
Результаты радиофизических исследований процессов, предшествующих явлениям солнечной активности 01. 04. 03 – радиофизика
Грачкова Мария Александровна, Митрофанова Ольга Александровна, Романов iconЗвание лауреата I степени
Манеева Ольга Александровна – г. Барнаул – за работу «Эскиз декораций к спектаклю А. Н. Островского «Гроза»
Грачкова Мария Александровна, Митрофанова Ольга Александровна, Романов iconАнна Александровна Адлер Во имя любви и милосердия
Анна Александровна Адлер – яркая представительница русской интеллигенции конца XIX – начала XX века посвятила свою жизнь благороднейшему...
Грачкова Мария Александровна, Митрофанова Ольга Александровна, Романов iconЕкатерина Александровна Хитрово «Имя её вспомнит благодарное потомство»
Екатерина Александровна Хитрово – представительница древнейшего дворянского рода из обедневшей линии. О ней не сохранилось практически...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org