2 Теоретико-множественная модель координатного индексирования



страница1/5
Дата09.10.2012
Размер0.71 Mb.
ТипДокументы
  1   2   3   4   5
2.1. Теоретико-множественная модель координатного индексирования.

Рассмотрим свойства ИПЯ дескрипторного типа без грамматики, семантическая структура которого задается статистическим тезаурусом, т.е. таким ИПТ, на лексике которого семантические отношения взвешены статистическими коэффициентами ассоциаций (или мерами смысловой близости), обобщенно отражающими комбинативные особенности посткоординированных ИПЯ и понятийную структурированность предкоординированных языков.

Пусть некоторый реальный или мыслимый объект индексируется знаком dk (в частности dk – дескриптор тезауруса). С точки зрения теории классификации, объект можно достаточно полно описать, относя его к некоторому таксону – множеству объектов, обладающих общим архетипом – представлением структуры частей, внутренних и внешних связей /97/.

Таксон может быть задан либо заданием совокупностей существенных признаков, либо, если мероны архетипа не осознаны как совокупности признаков, экстенсионально через перечисление относящихся к нему объектов.


Вообще говоря, каждому объекту соответствует класс образов архетипа, определяемый спецификой точки зрения на объект, особенностями его представления, а каждый образ архетипа представлен бесконечным классом признаков, образующих класс меротаксонов признаков /88/.

Вследствие нечеткости соответствия системы знаков системе признаков, можно определить меру смыслового соответствия mpi(dk) знака-индекса dk набору признаков pi, которыми характеризуется объект. (Мера mpi вводится для того, чтобы увязать дескрипторы с признаками минуя понятия).

Тогда для некоторого dj ¹ dk можно говорить о существовании mx (dj/dk) ³ 0, если архетипы объектов, заиндексированных терминами dk и dj корреспондируют /99/ определенным образом, где X = Kr (dk) – класс терминов: объекты таксонов, обозначаемых этими терминами, находятся в отношении r-го вида к объектам таксона qk, обозначаемого dk. (Мера mx вероятность того, что объект, индексированный как dk, может быть индексирован как dj).

Здесь меры близости между лексическими единицами тезауруса определяются для знаковой системы, в которой множеству отображаемых объектов соответствует некоторым образом множество знаков. Причем, отдельная лексическая единица является именем понятия, которое имеет своим объемом таксон qk (множество объектов, имеющих одинаковое представление (архетип), т.е. объединенных в класс толерантности по некоторому общему, характерному для них признаку).

Объект индексирования может быть отнесен к нескольким таксонам с различной в общем случае мерой принадлежности, т.е. рассматривая его в различных аспектах, мы можем описать его более или менее полно и точно фактически различными терминами.

Для определения количественной зависимости mx (dj/dk) рассмотрим следующую теоретико-множественную модель системы отображения “объект-знак”.

Пусть на совокупном словаре D = {di} заданы отношения между дескрипторами, т.е. определен тезаурус, структура которого сочетает элементы иерархичности и комбинативности. Иерархичность достигается при построении структуры отношений, когда дескрипторы и соответственно обозначаемые ими таксоны, подчиненные одному и тому же дескриптору, отличаются только одним признаком. С другой стороны, возможность использования способа координатного индексирования, при котором объект обозначается несколькими дескрипторами, т.е. объект характеризуется комбинацией соответствующих им признаков, определяет комбинативность полученной структуры.

Можно сказать, что синтагматические отношения есть средство описания внешнего мира, его динамики. Реализуются они обычно в тексте посредством синтаксиса используемого языка. Парадигматические отношения отражают реальный мир на более высоком уровне абстрагирования, причем, ассоциативные связи характеризуют совместное участие объектов в типичных для данной отрасли знаний ситуациях (или аналогичных ситуациях). Иерархические отношения характеризуют совершенно определенную (понятийную) абстракцию внешнего мира (отражение на соответствующую отрасль знаний).

В числе признаков (свойств и отношений) каждого объекта имеются такие, которые однозначно определяют его в данной системе. Такой набор является группой существенных отличительных признаков. Причем, если объект рассматривается как единица внешнего мира, то его признаки включают ситуативные отношения, определяющие его через структуру причинно-следственных связей, отражающих функциональные свойства. Если объект рассматривается как элемент предметной области, то его признак включает парадигматические отношения, позволяющие описать его структурные свойства. Введение таких (в некоторой степени вспомогательных) понятий, связанных иерархическими отношениями, позволяющими определять объект через общность и отличие (род и видовое отличие), обязаны своим появлением понятийному уровню смысловыражения. Здесь “понятие” приводится в смысле /21/, как “мысль, представляющая собой результат обобщения и выделения предметов или явлений того или иного класса по существенным (а потому и общим для этих предметов и в их совокупности, специфическим для них, выделяющим их из множества других предметов и явлений) признакам”.

Рассмотрим возможности и способы координатного индексирования в структуре определенного ранее тезауруса, обладающей свойствами комбинативности и иерархичности.

Будем считать, что множество W = {wi} описываемых (обозначаемых, индексируемых) объектов не содержит идентичных групп. При координатном индексировании возможны следующие варианты описаний некоторого объекта:

  • понятию, которое является представлением wi, точно соответствует один термин тезауруса (разумеется, с той точностью, которую допускает принятая классификационная схема);

  • есть термин, соответствующее которому понятие не полностью отражает свойства wi, например, родовое свойство. Причем в этом случае видовое отличие внутри таксона выражается явно, если есть понятие (и соответствующий термин), которое нужным образом модифицирует родовое понятие. Видовое отличие внутри таксона выражается неявно, когда к родовому (основному) понятию добавляется понятие старшее по отношению к основному, тем самым искусственно обозначая наличие видовых отличительных признаков, неразрешимых средствами данного словаря и структуры отношений, заданных по нему.

2.2. Статистический коэффициент ассоциации дескрипторов.

Рассмотрим таксономическую структуру, образованную понятийной структурой тезауруса и наборы характерных признаков, соответствующих выделенным таксонам.

Пусть в соответствии с принятой систематизацией определения любой пары таксонов, подчиненных одному и тому же таксону, отличаются только по одному признаку. Из иерархичности классификации следует, что комбинация признаков, определяющих подчиненный таксон, включает в себя признаки, определяющие подчиняющий. Примем, что мощности этих комбинаций отличаются ровно на единицу. То есть, если qi - подчиняющий таксон, qj и qk - соподчиненные для qi таксоны, а pi, pj, pk - комбинации признаков, определяющие указанные таксоны, тогда
pi = pj Ç pk; pi Ì pj, pk;
|pj\pi|=1; | pk\pi|=1; (2.I)
(далее пропущена страница – в оригинале номер 36)
признаков pija (вследствие уникальности каждого объекта и принятой модели).

Следует, однако, отметить, что выделение в образе описания объекта (pi(wm)) группы основных признаков и признаков видового отличия зависит от наличия синтаксических средств в языке индексирования. Например, в случае существования позиционной зависимости (порядка следования дескриптора в описании), pij будет составлять основную часть родового понятия, признаки pia - будут выступать в качестве модификаторов.

Абстрагируясь от вещного уровня, где каждый объект характеризуется набором свойств и особенностей, мы переходим от системы знаков, обозначающих классификационное представление (pj) таксонов к системе знаков, обозначающих реальные понятия (их представление есть pj È pa) областей знаний (к которым относятся индексируемые объекты) с учетом их развития. При этом понятия, в общем случае, связаны с таксонами (или их составляющими), порожденными исходной классификацией. И, поскольку классификационной таксономической структуре соответствует система не взаимоисключающих подмножеств характерных признаков, то степень близости знаков, обозначающих соответствующие понятия, можно оценить мерой (вероятностью) взаимозаменяемости знаков, обозначающих реальные таксоны, образ которых содержит помимо классификационных (pj) дополнительные видовые признаки (pa), при условии, что образ, соответствующий такому (замененному) описанию, будет охватывать отличительные признаки объектов, отнесенных к таксону, обозначаемому исходным знаком.

Прежде, чем перейти к определению количественных зависимостей, необходимо отметить, что классификационная схема, структура информационно-поискового тезауруса (и словарь как один из элементов ИПТ) строятся для вполне определенной предметной области и в расчете на определенный период действия. Следовательно, априори определяется его разрешающая способность индексирования и поиска, т.е. лексический состав (в общем случае искусственные Л.Е.) выбирается на основе положения, что в момент введения в эксплуатацию тезауруса множество N0 описания неповторяющихся объектов индексирования не должно содержать повторяющихся дескрипторов. Положим, что лексический состав выбран так, что отдельному объекту соответствует описание минимальной длины в 1 дескриптор. Тогда должно выполняться

j0

å 2i = N0, (количество подмножеств из множества из i элементов)

i=0

где N0 – количество wi, известных к моменту разработки классификации;

j0 - глубина иерархической классификационной схемы.

Пусть задан словарь D = {di}; предполагается, что за время действия ИПЯ, заданного на D, будет обработано (заиндексировано) N описаний неповторяющихся объектов (документов). Тогда мощность множества возможных признаков, входящих в образы объектов, относящихся к i таксону, обозначаемому diÎD, можно определить как (ji+fi), где ji - порог образования таксона в соответствии с принятой классификационной схемой, fi - частота встречаемости di в массиве ПОДов (т.е. в соответствии с принятой системой определения объектов fi = |pia|).

Принимая для мирового потока равновероятное распределение встречаемости терминов и используя распределение документов в потоке по длине P(n), запишем:

l

|Pi| = å NP(n)*n*(1/|D|)+ji,

n=1

где Pi - множество допустимых признаков (i-го понятия) образа qi;

P(n)- вероятность появления в потоке текста длиной n терминов;

l - максимальное количество терминов в документе;

1/|D|- объем словаря.
Тогда множество допустимых признаков i-го и j-го понятий есть Pij=PiÈPj и |Pij|=|Pi|+|Pj|+|PiÇPj|. Поскольку каждый документ (сочетание терминов), в который входят di и dj добавляет к Pij новый признак, то

l

|PiÇPj|= å fij0(n)+jij,

n=2

где fij0 - частота совместной встречаемости di и dj в документах длины n.
Для выборки N документов, используя теоретико-множественный аппарат, в предположении, что появление дескрипторов в документах равновероятно, имеем
  1   2   3   4   5

Похожие:

2 Теоретико-множественная модель координатного индексирования iconТеоретико-множественная парадигма современной математики и ее возможные альтернативы

2 Теоретико-множественная модель координатного индексирования iconОпыт корпоративного взаимодействия по созданию единого электронного каталога в процессе ретроспективной каталогизации и координатного индексирования Муниципальной информационной библиотечной системы
Созданный таким образом массив данных может стать в дальнейшем частью общероссийского электронного каталога
2 Теоретико-множественная модель координатного индексирования iconИзобретения с. Н. Корсакова
Недооцененные современниками, изобретения Корсакова были заново открыты благодаря трудам профессора кафедры «Кибернетика» мифи г....
2 Теоретико-множественная модель координатного индексирования iconТеоретико-катастрофическая модель лесной экосистемы
Модель позволяет проводить качественное прогнозирование возможных равновесных состояний, лесных экологических катастроф и показывает...
2 Теоретико-множественная модель координатного индексирования iconМножественная регрессия и корреляция
Если же этим влиянием пренебречь нельзя, то в этом случае следует попытаться выявить влияние других факторов, введя их в модель,...
2 Теоретико-множественная модель координатного индексирования iconВосстановление начала координатного луча и единичного отрезка по координатам
Показать учащимся рациональный способ восстановления начала координатного луча и единичного отрезка
2 Теоретико-множественная модель координатного индексирования iconРасширение запросов с помощью вероятностного латентного семантического индексирования
Целью данной работы является исследование эффективности применения метода вероятностного латентного семантического индексирования...
2 Теоретико-множественная модель координатного индексирования iconЛекция №4 Теоретико-игровые модели пр в конфликтных ситуациях Определения
Игрой называется упрощённая формализованная модель конфликтной ситуации, а конфликтующие стороны называются игроками
2 Теоретико-множественная модель координатного индексирования iconТеорема об одной свойстве гносеологического отражения
Описана модель отражения действительности в сознании человека, построенная посредством теоретико-множественных диаграмм, подробно...
2 Теоретико-множественная модель координатного индексирования iconЭкономико-математическая модель (эмм). Понятие, пример, общая классификация эмм
По общему целевому назначению экономико-математические модели делятся на теоретико-аналитические используемые при изучении общих...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org