Меры семантической близости в онтологиях



Скачать 89.16 Kb.
Дата08.05.2013
Размер89.16 Kb.
ТипДокументы

Меры семантической близости в онтологиях

К.В. КРЮКОВ, Л.А. ПАНКОВА, В.А. ПРОНИНА, Л.Б. ШИПИЛИНА

Институт проблем управления РАН им. В.А. Трапезникова, Москва
МЕРЫ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ В ОНТОЛОГИЯХ
В работе дан обзор и классификация существующих моделей и мер семантической близости в онтологиях. Семантическая близость рассматривается между такими сущностями, как понятия, термины, экземпляры, отношения, онтологии. В основу классификации моделей близости положены характеристики сущностей (свойства, отношения и их типы, атрибуты понятий) и структура онтологии.
Онтология – это спецификация концептуализации предметной области (ПО). Онтология состоит из организованных в иерархию понятий, отношений между понятиями и атрибутов понятий, а также аксиом и правил вывода. Понятия представляют множества экземпляров. Понятия, экземпляры, отношения и атрибуты будем называть онтологическими термами.

Меры близости онтологических термов используют различные семантические характеристики сравниваемых термов – их свойства (атрибуты и отношения с другими термами), взаимное положение в онтологических иерархиях. В работе рассматриваются меры семантической близости, предполагающие однозначную интерпретацию термов для одной онтологии. Для кросс-онтологических мер при разных лексиконах онтологий используется еще и лексическая близость термов (основанная на редакторском расстоянии).

Онтологический подход обеспечивает новый уровень в решении задач поиска и интеграции информации. Запрос пользователя, как правило, не полностью отражает его интерес, так как пользователь, с одной стороны, не знает всех терминов и структур данных, заложенных в систему, с другой – не всегда точно выражает, что он ищет. Использование семантической близости дает возможность расширять запросы и ранжировать результаты запросов. Другими словами, терм c может быть представлен как размытое (нечеткое) множество, включающее (кроме этого терма) семантически близкие термы со значением семантической близости выше заданного порога, причем семантическая близость определяет принадлежность к нечеткому множеству: с+ = {1/с, S(с,с1)/с1, S(c,c2)/c2, …, S(c,cn)/cn}. При интеграции информации, например при операциях над онтологиями, использование мер близости позволяет автоматически находить семантически близкие понятия, принадлежащие к разным системам концептуализации.

Ключевым моментом в решении задачах поиска и интеграции является разработка количественных оценок семантической близости. В работе представлен обзор методов, которые используют знания, заложенные в онтологии, для оценок семантической близости термов.


В основу многих онтологических мер близости положен теоретико-множественный подход Тверски [1], определяющий меру близости двух объектов, основанную на сопоставлении свойств (feature matching). Мера близости S(a,b) между объектами a и b является функцией трех аргументов AB, AB, BA, где A и B – множества свойств этих объектов, должна удовлетворять аксиомам монотонности, независимости, разрешимости и инвариантности и определяется формулой (contrast model):

.

В развитие модели Тверски была построена ratio model:

.

В большинстве методов вычисления мер близости используется ratio model, а в качестве функции f – мощность множества-аргумента.

Близость двух понятий онтологии может быть оценена по положению вершин, соответствующих этим понятиям в таксономической иерархии (IS-A). Простейшая мера близости такого рода основана на длине кратчайшего пути, измеряемого числом вершин (или ребер) в пути между двумя соответствующими вершинами таксономии [2], с учетом глубины таксономической иерархии [3] – чем меньше длина пути между вершинами, тем они ближе:

,

где N – глубина дерева, d(c1, c2) – длина кратчайшего пути между вершинами.

В [4] предложена мера близости, учитывающая только глубины вершин понятий:

,

где N(LCS) – глубина наименьшей общей родовой вершины – ближайшего общего родителя (least common subsumerLCS), N(c1) и N(c2) – глубины вершин.

В [5] предложена мера близости, учитывающая два параметра: длину кратчайшего пути между вершинами и глубину LCS-вершины – с учетом их весов a и b. Наибольшая корреляция с экспертными оценками получена при применении формулы:

,

где d и N – длина кратчайшего пути между вершинами и глубина LCS-вершины.

В [6] при оценке семантической близости понятий предлагается ограничивать конфигурацию пути: длину пути и количество перегибов. Предполагается, что два понятия семантически близки, если соединены достаточно коротким путем, который имеет малое количество перегибов. В [7], [8] рассматриваются пути либо, состоящие из совокупности иерархических отношений, направленных в одну сторону (например, последовательность отношений от потомка к предку), либо включающие ровно один перегиб.

В [9] для измерения близости используется семантическое расстояние SemDist, инверсное семантической близости: чем больше семантическое расстояние, тем меньше семантическая близость. Вводится понятие общей специфичности двух вершин CSpec:

,

где Nглубина таксономического дерева. Чем меньше специфичность двух вершин, тем больше информации они разделяют и близость их больше.

Семантическое расстояние является функцией двух параметров – длины кратчайшего пути между вершинами и общей специфичности двух вершин:

,

где α > 0, β > 0; k ≥ 1 – константа (обеспечивает нелинейность и положительность SemDist), d(с1, с2) – длина кратчайшего пути между двумя вершинами.

В [10] вводится информационное содержание понятия IC (information content), которое вычисляется как частота встречаемости понятия и его подпонятий в стандартном корпусе текстов и трактуется как величина вероятности P(с). Если с2 – родитель для с1, то P(с1) P(с2). Чем абстрактнее понятие, тем меньше величина его IC. В [10] близость между двумя понятиями оценивается по IC ближайшего родителя сравниваемых понятий. В [11], [12] вместо глубины вершин используется их IC – «взвешенная» глубина. В [13] таксономическая мера близости понятий определяется через так называемую «верхнюю котопию» (UCupwards cotopy), содержащую все суперпонятия заданной вершины:

.

В [14] предлагается асимметричная мера семантической близости. В зависимости от направления прохождения ребрам придается разный вес, так как потомок более подобен родителю, чем родитель потомку.

Недостатком большинства мер, основанных на онтологических структурах, является симметричность (экспертные оценки показывают, что мера близости не всегда симметрична). Кроме того, эти меры независимы от контекста и чувствительны к структуре иерархии.

В [13] предлагаются меры близости, основанные на неиерархических («горизонтальных») отношениях и атрибутах. Оценка близости понятий, использующая горизонтальные отношения, опирается на предположение, что если два понятия имеют одно и то же отношение с третьим, то они ближе, чем два понятия, которые имеют это же отношение с различными понятиями, т. е. близость двух понятий зависит от близости понятий, с которыми они имеют отношения. Таким образом, мера близости вычисляется рекурсивно. Атрибутивная мера близости основана на близости значений общих атрибутов понятий. Атрибуты можно рассматривать как отношения, диапазоны которых литералы, числа, строки и другие типы данных. В качестве меры близости для строковых данных можно использовать пронормированное редакторское расстояние [15], для чисел – инверсию разности, пронормированную максимальным значением атрибута.

Гибридные меры являются свертками перечисленных мер близости понятий. Чем полнее будут учитываться характеристики двух сущностей с разных точек зрения, тем более качественную меру близости можно получить. В связи с этим наиболее перспективными представляются именно гибридные меры, сочетающие несколько подходов.

Чаще всего в гибридных мерах используется аддитивная свертка:

,

где мера близости по определенному критерию, вес wi определяет относительную важность критерия, сумма весов равна 1, n – число критериев.

Распространенная модификация аддитивной свертки основана на использовании сигмоидальной функции, которая позволяет повысить веса мер, имеющих большие значения, и практически пренебречь мерами с малыми значениями (sig(x)=1/(1+e-ax), a > 0):

.

Веса могут определяться интерактивно экспертами и/или пользователями, а также автоматически с помощью обучаемой нейронной сети [16] или генетического алгоритма [17].

Гибридная мера, предложенная в [13], содержит оценку близости экземпляров, состоящую из трех частей – таксономической, реляционной и атрибутивной:

.

Трудности сравнения разных онтологий ПО (различных концептуализаций одной и той же ПО) заключаются в различии используемых лексиконов и в различных путях концептуализации и ее представления. Отображение онтологии О1 на онтологию О2 означает попытку найти для каждого из концептов онтологии О1 подобный ему концепт в онтологии О2.

В [9] таксономии двух онтологий связываются через «мосты» («якоря») – вершины, соответствующие эквивалентным понятиям, которые определяются с использованием синсетов (множеств синонимов) из MeSH (Medicine Subject headings) и WordNet. Параметры таксономической меры близости рассчитываются с учетом введенных мостов: ближайшим общим родителем (LCS) для сравниваемых понятий из разных онтологий O1 и O2 является ближайший общий родитель первого элемента сравниваемой пары и вершины-моста.

В [18] для вычисления кросс-онтологической меры близости таксономии двух онтологий связываются через вводимую top-вершину обеих иерархий. Близость понятий в двух онтологиях вычисляется с учетом лексической близости терминов, соответствующих сравниваемым вершинам, семантической близости соседних (в заданном радиусе окрестности вершины в иерархии) вершин, а также близости различимых свойств понятий, соответствующих сравниваемым вершинам.

В [19] мера близости между термами разных онтологий разбивается на элементарные критерии: лексическая близость, близость свойств, близость доменов и диапазонов отношений, близость родительских/дочерних понятий и т. д. Расчет близости между понятиями в разных онтологиях является итерационным процессом, поскольку многие из рассмотренных критериев близости двух понятий основываются на близости других сущностей. На первой итерации используются критерии близости, которые не основываются на других критериях, например лексическая близость.

В [20] рассматриваются методы измерения близости между онтологиями на двух уровнях – вербальном и концептуальном. На вербальном уровне происходит сравнение лексиконов двух онтологий, на концептуальном – сравнение таксономий понятий и других отношений двух онтологий.

В [21] ранжирование ответов на запросы к Web-порталу сводится к сравнению пар баз знаний (онтологий) – каждого результата запроса (QKBi), который интерпретируется как база знаний, и портала (KB). Базы знаний результата и портала имеют один лексикон и одни понятия, поэтому сравниваются только отношения. Ранжирование производится по значению близости результата к порталу, причем понятие близости между двумя базами знаний сводится к близости отношений:

S(QKBi, KB) = ,

где PQ множество отношений базы знаний результата запроса QKBi, P – множество отношений базы знаний портала, S(pj, pi) – близость двух n-арных отношений pj и pi .

Меры семантической близости используются в широком спектре задач. Эффективность применения той или иной меры зависит как от задачи, так и от пользователя. Этот вопрос не рассматривается в известной авторам данного обзора литературе и ожидает своего исследования.

Интерактивный интерфейс при задании запроса поможет пользователю определить свои предпочтения при выборе меры семантической близости.

Работа выполнена при финансовой поддержке фонда РФФИ, проект № 08-01-00459.
СПИСОК ЛИТЕРАТУРЫ


  1. Tversky A. // Psychological Rev. 1977. V. 84. P. 327.

  2. Rada R., Mili H., Bicknell, E. et al. // IEEE Trans. on Systems, Man and Cybernetics. 1989. V. 19. P. 17.

  3. Leacock C., Chodorow M. // WordNet: An electronic lexical database. Cambrige, 1998. P. 265.

  4. Wu Z., Palmer M. // Proc. 32nd Annual Meeting of the Association for Comput. Linguistics. Las Cruces, 1994. P. 133.

  5. Li Y., Bandar Z. A., McLean D. // IEEE Trans. on Knowledge and Data Engineering. 2003. V. 15. P. 871.

  6. Hirst G., St-Onge D. // WordNet: An electronic lexical database. Cambrige, 1998. P. 305.

  7. Лукашевич Н. В., Добров Б. В. // Труды Междун. cем. Диалог-2002. Т. 2. С. 338. М.: Наука, 2002.

  8. Лукашевич Н. В., Добров Б. В.// Труды Междун. конф. Диалог-2002. Т. 2. С. 400. М.: Наука, 2002.

  9. Nguyen H.A. Thesis for the Degree Master of Science. – University of Houston-Clear Lake, 2006.

  10. Resnik P. // Proc. 14th Int. Joint Conf. on Artificial Intelligence. Montreal, 1995. P. 448.

  11. Jiang J., D. Conrath. // Proc. Int. Conf. on Computational Linguistics. Taiwan, 1997. P. 19.

  12. Lin D. // Proc. 15th Int. Conf. on Machine Learning. – Madison, 1998. P. 768.

  13. Maedche A., Zacharias V. // Proc. 6th European PKDD Conf. LNCS V. 2431. Berlin: Springer, 2002. P. 348.

  14. Henrik Bulskov, Rasmus Knappe, Troels Andreasen. //. Proc. 5th Int. FQAS Conf. LNCS. V. 2522. P. 100. Berlin: Springer, 2002.

  15. Levenshtein I. V. // Cybernetics and Control Theory. 1966. V. 10. P. 707.

  16. Ehrig M., Sure Y. // The semantic web: Research and applications. Proc. 1st European Semantic Web Symposium. LNCS. Berlin: Springer. V. 3053. P. 76.

  17. Spasic I. Nenadic G., Manios K. et al. // Proc. 3rd Int. IDEAL Conf. LNCS. Berlin: Springer, 2002. V. 2412. P. 429.

  18. Rodríguez M.A. Thesis for Degree of Doctor of Philosophy. University of Maine, 2000.

  19. Карпенко А. П., Сухарь Р. С. // Наука и образование [Электр. научно-техн. издание]. 2009. – Режим доступа: http://technomag.edu.ru/doc/115931.html.

  20. Maedche A., Staab S. // Proc. 13th EKAW Conf. LNAI. Berlin: Springer, 2002. V. 2473. P. 251.

  21. Stojanovic N., Madche A., Staab S. et al. // Proc. 1st Int. Conf. on Knowledge Capture. New York, 2001. P. 155.



Похожие:

Меры семантической близости в онтологиях iconМетодические указания и контрольные задания для студентов заочного отделения и студентов экстернов по дисциплине «Русский язык и культура речи»
Охватывает всех случаев употребления иноязычных существительных. Благодаря семантической близости к существительным русского языка...
Меры семантической близости в онтологиях iconЕ. В. Шелестюк метонимия как способ семантической деривации (о типах метонимических конструкций в семантической структуре английских существительных)
Шелестюк Е. В. Метонимия как способ семантической деривации (о типах метонимических конструкций в семантической структуре английских...
Меры семантической близости в онтологиях iconИнформационная модель объекта в контексте Электронной семантической библиотеки
Электронной семантической библиотеке, в которой информация представлена, наряду с традиционными форматами (тексты, мультимедиа),...
Меры семантической близости в онтологиях iconВ. П. Астафьева, г. Красноярск поизводные существительные со значением деятеля как реализация субъектной семантической валентности глагола
...
Меры семантической близости в онтологиях iconМетоды лингвистических исследований. Метод типологии
В общенаучном масштабе типология — это метод исследования разнообразных и внутренне сложных объектов путем выявления их общих или...
Меры семантической близости в онтологиях iconИнтеграция меры близости в логико-марковской сети в задаче извлеченния временной информации с текста
Например, мы, возможно, будем интересоваться, когда и за сколько время одно событие, описано в новости случилось. Эта задача связана...
Меры семантической близости в онтологиях iconКодекс об административных правонарушениях
Обеспечительные меры производства по делам об административных правонарушений. Переписать все меры: административное задержание физического...
Меры семантической близости в онтологиях iconЛекция 15 Концептуальные модели. Концептуальное программирование. Модульное программирование
Для проведения расчётов по семантической сети создавались программные модули, которые осуществляли взаимные поставки информации....
Меры семантической близости в онтологиях iconстаринные русские меры длины новые меры длины (введены с XVIII века) меры объёма (ведро, бочка)
Пядь это расстояние между вытянутыми большим и указательным пальцами руки при их наибольшем удалении (размер пяди колебался от 19...
Меры семантической близости в онтологиях iconВоскресное слово сказанное настоятелем в храме 4 января о Богочеловечности Иисуса Христа
Нет такой другой близости у души с Богом, какую мы видим на примере Боговоплощения, и нет такой другой близости как близость человеческой...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org