Системный анализ корпуса текстов научного знания



Скачать 154.66 Kb.
страница3/5
Дата01.01.2013
Размер154.66 Kb.
ТипДокументы
1   2   3   4   5

Латентный семантический анализ


В данной работе использован латентный семантический анализ (LSA – latent semantic analysis) как метод определения сходства значений слов и документов путем статистических вычислений над большим текстовым корпусом [6]. Он использован по той причине, что для вычислений с его помощью не требуется никакой дополнительной информации, такой как построенные вручную словари, семантические сети или базы знаний. В основе метода LSA лежит гипотеза о том, что между словами и тем контекстом, в котором они употребляются, существуют неявные (латентные) взаимосвязи. Предполагается, что семантическое значение документа может быть представлено как сумма значений входящих в него слов:



Метод позволяет вычислить корреляции между парой терминов, между парой документов и между термином и документом.

Каждая строка исходной матрицы – вектор, соответствующий термину и показывающий его связь с каждым из документов корпуса:


,

(4)


Каждый столбец исходной матрицы – вектор, соответствующий документу и показывающий его связь с каждым из терминов корпуса:


,

(5)


Скалярное произведение двух векторов показывает корреляцию между соответствующими терминами. Произведение матриц содержит все такие скалярные произведения. Элемент (равный элементу ) содержит скалярное произведение . Аналогично, матрица содержит скалярные произведения между векторами всех документов, показывающие корреляцию между ними: .

Метод LSA заключается в сингулярном разложении матрицы gif" name="object86" align=absmiddle width=21 height=18> (SVD – singular value decomposition) и аппроксимации ее матрицей меньшего ранга . Тогда матрица , содержащая только первых линейно независимых компонент , отражает структуру ассоциативных связей, присутствующих в исходной матрице, и в то же время не содержит «шума». Помимо этого, уменьшение размерности матрицы ведет к уменьшению количества вычислений.

По теореме о сингулярном разложении существует разложение матрицы , такое что и – прямоугольные матрицы, а – диагональная матрица.

Тогда, как уже говорилось, сходство между терминами и (или) документами может быть определено из следующих соотношений:

  1. Сходство между термином и документом может быть определено из произведения матриц:




,

(6)




  1. Сходство между двумя терминами может быть получено из следующего выражения:




,

(7)




  1. Сходство между двумя документами может быть получено из следующего выражения:




,

(8)


Поскольку произведения матриц и являются диагональными матрицами, то матрица должна содержать собственные вектора , а матрица – собственные вектора . Оба произведения должны иметь одинаковые не равные нулю собственные значения при не равных нулю элементах или, что то же самое, при не равных нулю элементах .

Разложение матрицы выглядит следующим образом:


,

(9)


где – сингулярные числа, и – левый и правый сингулярные вектора.

Известно, что выбор наибольших сингулярных значений и соответствующих им сингулярных векторов из матриц и даст наилучшую аппроксимацию матрицы матрицей ранга :


.

(10)


Теперь, применяя к уменьшенным матрицам полученные ранее соотношения (6), (7) и (8), можно вычислить сходство каждой пары терминов как скалярное произведение соответствующих векторов, умноженных на сингулярные значения:


.

(11)


Аналогично определяется сходство каждой пары документов:


.

(12)


Сходство между парой термин – документ определяется по формуле


.

(13)
1   2   3   4   5

Похожие:

Системный анализ корпуса текстов научного знания iconСистемный и компонентный анализ бизнес-среды организации
Ключевые слова и фразы: компонентный анализ, структурный анализ, системный анализ, энтропия системы
Системный анализ корпуса текстов научного знания iconПрограмма вступительного экзамена в аспирантуру по специальности 05. 13. 01 ( Системный анализ, управление и обработка информации)
Поступающие в аспирантуру по специальности 05. 13. 01 «Системный анализ, управление и обработка информации» должны продемонстрировать...
Системный анализ корпуса текстов научного знания iconСистемный анализ и оптимизация технологического процесса автоматизации составления расписания занятий вуза с детерминированными ограничениями
Специальность: 05. 13. 01 – Системный анализ, управление и обработка информации (информационные и технические системы)
Системный анализ корпуса текстов научного знания iconСтруктура и динамика научного знания диалектика эмпирического и теоретического
Все формы научного знания могут быть отнесены к двум основным уровням организации знания: эмпирическому и теоретическому
Системный анализ корпуса текстов научного знания icon"Частотный анализ текстов и его применение"
Для большинства алгоритмов кластеризации и систематизации текстов используется мера близости текстов – коэффициент, вычисляемый по...
Системный анализ корпуса текстов научного знания iconСистемный анализ в управлении предприятием
Садчиков и. А., Амельченко а. В. Системный анализ в управлении предприятием: Учеб пособие по спец. 060800 – Экономика и управление...
Системный анализ корпуса текстов научного знания iconСеминарских занятий «История развития научного знания»
Развитие конкретно-научного знания в научных центрах античности (Александрийская школа и т д.)
Системный анализ корпуса текстов научного знания iconСтруктура научного познания
Все формы научного знания могут быть отнесены к двум основным уровням организации знания: эмпирическому и теоретическому
Системный анализ корпуса текстов научного знания iconПодкорпус текстов XVIII века в составе Национального корпуса русского языка: из опыта работы1
Единицы корпуса снабжены лингвистической информацией: целым текстам приписаны типологические и стилистические признаки, каждая словоформа...
Системный анализ корпуса текстов научного знания iconПреподавание дисциплины «теория систем и системный анализ» с использованием современных компьютерных технологий
Согласно Государственному образовательному стандарту высшего профессионального образования (информационные специальности и направления),...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org