Системный анализ корпуса текстов научного знания



Скачать 154.66 Kb.
страница1/5
Дата01.01.2013
Размер154.66 Kb.
ТипДокументы
  1   2   3   4   5

УДК 004.912


Я. А. Седова, И. Ю. Квятковская

СИСТЕМНЫЙ АНАЛИЗ КОРПУСА ТЕКСТОВ НАУЧНОГО ЗНАНИЯ

В работе описаны семантическая модель корпуса документов и алгоритмы, позволяющие представить его в форме графа для последующего анализа. Также описан алгоритм поиска в корпусе документов с помощью описанной модели. Рассматривается подход к обработке текстов авторефератов кандидатских и докторских диссертаций.

Ключевые слова: Интеллектуальный анализ текстовых данных, семантическая модель, латентный семантический анализ, кластерный анализ, информационно-поисковая система.

Y. A. Sedova, I. Y. Kvyatkovskaya

SYSTEM ANALYSIS OF THE SCIENTIFIC DOCUMENTATION CORPUS

The semantic model of a document corpus and algorithms allowing to represent it as a graph for the following analysis are offered. The algorithm of the search within a document corpus is also described. The approach to process abstracts of PhD and doctoral theses is considered.

Keywords: Text mining, semantic model, latent semantic analysis, cluster analysis, information retrieval system.
Современный этап развития науки характеризуется значительными темпами увеличения объема научного знания. Согласно статистике, опубликованной веб-ресурсом «Кадры высшей научной квалификации» [1], количество кандидатских диссертаций, утвержденных Высшей аттестационной комиссией, в последнее десятилетие значительно выросло. На сайте Высшей аттестационной комиссии хранится электронный архив авторефератов докторских диссертационных работ за 2006-2010 гг., насчитывающий на момент написания данной работы 9567 документов.

Научное знание, представленное документально, является слабо структурированным. Например, автореферат диссертационной работы имеет фиксированную структуру, но написан на естественном языке, что затрудняет его автоматическую семантическую обработку, поскольку формальной модели естественного языка в настоящее время не создано. Поэтому актуальна задача автоматизации анализа массива (корпуса) текстовых документов.

Основные определения


Под термином в данной работе понимается слово или словосочетание на естественном языке, описывающее какое-либо понятие предметной области.

Назовем словарем предметной области совокупность терминов этой области, а словарем документа – совокупность терминов этого документа.

Если термин относится к той же предметной области, что и документ, в котором он употребляется, то назовем такой термин доминантным для этого документа.

В данной работе текстовый документ рассматривается в виде , где - множество доминантных терминов документа, gif" name="object3" align=absmiddle width=126 height=21> - множество весов терминов, показывающих важность термина для документа . Данная модель основана на модели «набор слов» [2] (bag of words), но отличается от нее использованием терминов вместо одиночных слов.

Корпус текстовых документов может быть представлен в виде матрицы «термин-на-документ» вида


,

(1)


где - доминантные термины всех документов корпуса, - документы корпуса, - веса терминов в соответствующих документах.

Представление корпуса в виде матрицы позволяет рассматривать его как набор векторов в -мерном пространстве, где – количество терминов во всех документах корпуса. Данная модель основана на векторной модели пространства [3] (vector space model) и отличается от нее использованием терминов вместо одиночных слов.

Векторная модель пространства схематически изображена на рис. 1. Представление документов как векторов позволяет использовать аппарат векторной алгебры для анализа векторного пространства, в частности, для вычисления степени сходства между документами и для кластерного анализа корпуса документов.


Рисунок 1. Векторная модель пространства документов
Сходство между термином и документом может быть определено без дополнительных расчетов из самой матрицы как элемент , стоящий на пересечении -ой строки и -ого столбца и показывающий вес термина в документе . Для определения сходства между терминами или документами часто используется следующий факт. Рассмотрим матрицу размерностью . На пересечении -ой строки и -ого столбца в этой матрице стоит скалярное произведение векторов терминов и , которое может быть использовано в качестве метрики сходства между этими векторами, т.е. и между терминами. Аналогично, матрица размерностью позволит вычислить сходство между документами. Могут быть использованы и другие метрики сходства: значение косинуса между векторами, Евклидово расстояние и др.
  1   2   3   4   5

Похожие:

Системный анализ корпуса текстов научного знания iconСистемный и компонентный анализ бизнес-среды организации
Ключевые слова и фразы: компонентный анализ, структурный анализ, системный анализ, энтропия системы
Системный анализ корпуса текстов научного знания iconПрограмма вступительного экзамена в аспирантуру по специальности 05. 13. 01 ( Системный анализ, управление и обработка информации)
Поступающие в аспирантуру по специальности 05. 13. 01 «Системный анализ, управление и обработка информации» должны продемонстрировать...
Системный анализ корпуса текстов научного знания iconСистемный анализ и оптимизация технологического процесса автоматизации составления расписания занятий вуза с детерминированными ограничениями
Специальность: 05. 13. 01 – Системный анализ, управление и обработка информации (информационные и технические системы)
Системный анализ корпуса текстов научного знания iconСтруктура и динамика научного знания диалектика эмпирического и теоретического
Все формы научного знания могут быть отнесены к двум основным уровням организации знания: эмпирическому и теоретическому
Системный анализ корпуса текстов научного знания icon"Частотный анализ текстов и его применение"
Для большинства алгоритмов кластеризации и систематизации текстов используется мера близости текстов – коэффициент, вычисляемый по...
Системный анализ корпуса текстов научного знания iconСистемный анализ в управлении предприятием
Садчиков и. А., Амельченко а. В. Системный анализ в управлении предприятием: Учеб пособие по спец. 060800 – Экономика и управление...
Системный анализ корпуса текстов научного знания iconСеминарских занятий «История развития научного знания»
Развитие конкретно-научного знания в научных центрах античности (Александрийская школа и т д.)
Системный анализ корпуса текстов научного знания iconСтруктура научного познания
Все формы научного знания могут быть отнесены к двум основным уровням организации знания: эмпирическому и теоретическому
Системный анализ корпуса текстов научного знания iconПодкорпус текстов XVIII века в составе Национального корпуса русского языка: из опыта работы1
Единицы корпуса снабжены лингвистической информацией: целым текстам приписаны типологические и стилистические признаки, каждая словоформа...
Системный анализ корпуса текстов научного знания iconПреподавание дисциплины «теория систем и системный анализ» с использованием современных компьютерных технологий
Согласно Государственному образовательному стандарту высшего профессионального образования (информационные специальности и направления),...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org