Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков. Введение



Скачать 120.25 Kb.
Дата08.10.2012
Размер120.25 Kb.
ТипДокументы
Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков.
Введение. Метод, представленный в настоящей работе, предназначен для поиска по имеющейся выборке прецедентов наиболее полной системы нечетких закономерностей, характеризующих зависимость некоторой величины от набора потенциальных прогностические переменных . Под закономерностью понимается такая подобласть многомерного пространства , для которой существует тенденция существенного отклонений значений величины от ее средних значений по генеральной совокупности. Описания исследуемых (объектов) прецедентов могут быть представлены в виде пар , где принадлежит к некоторому множеству точек многомерного пространства а зависимая величина принимает значения из некоторого множества . Иными словами множество допустимых объектов исследования может быть представлено как декартово произведение . Считается, что на множестве задана алгебра , являющаяся декартовым произведением алгебр , заданных на и Считается, что на определена вероятностная мера . Эмпирическая оценка условного математического ожидания , где , может быть осуществлена по эмпирической выборке исследуемых объектов для которых вектор принадлежит множеству . Эту эмпирическую оценку далее будем обозначать . Обозначим через множество всевозможных эмпирических оценок. Предполагается, что на множестве задана функция расстояний gif" align=bottom>, соответствующая существующим представлениям о взаимной удаленности объектов и обладающая следующими свойствами:

a) , б) .

Одним из способов эмпирического оценивания является выбор элемента , наименее удаленного от объектов или

= (1)

Предлагаемый метод разбиений предназначен для исследования зависимости описания от переменных по эмпирической обучающей выборке . Метод основан на построении оптимальных разбиений интервалов допустимых значений одиночных переменных или совместных областей допустимых значений групп переменных в рамках априори заданных моделей. Причем разбиение считается оптимальным, если оно индуцирует разбиение на несколько групп с возможно минимальными расстояниями между объектами внутри одной и той же группы и возможно максимальными расстояниями между объектами из разных групп. Данные различия между группами и внутри групп описываются с помощью специального функционала, который мы далее будем называть функционалом качества разбиений. Задача при этом сводится к поиску разбиений из рассматриваемых моделей, на которых достигается максимум функционала качества.

Функционал качества . Предположим, что - разбиение обучающей выборки на подвыборки . Тогда интегральный функционал качества определяется как сумма

, (2)

где - число объектов в подвыборке ,

Наряду с интегральным функционалом качества может быть использован также локальный функционал качества, в котором оценка проводится по подвыборке максимально отличающейся от исходной обучающей выборки

. (3)

Модели разбиений. Под моделью разбиения мы понимаем множество разбиений с числом элементов не превышающем не превышающем некоторое заранее число, которые строятся с помощью априори заданного и фиксированного алгоритма.

Примеры моделей разбиений приведены на рисунках I-V.


Рис . 1 . Модель I Рис 2. Модель II



Рис . 3 . Модель III

Модель I включает все разбиения интервалов допустимых значений одиночных переменных с числом элементов (подобластей) не более двух, которые разделены с помощью одной граничной точки. Модель II включает все разбиения интервалов допустимых значений одиночных переменных с числом элементов не более трех, которые разделены с помощью не более двух граничных точек. Модель III включает все разбиения области допустимых значений пары переменных с числом элементов не более четырех. Причем при построении разбиения используется не более одной граничной точки для каждой из двух переменных. ..

Области применения. Характер множеств и меняется в зависимости от поставленных целей и объекта исследований. Рассмотрим случай, когда целью ставится поиск различий между распределениями переменных в двух непересекающихся классах и . На объектах обучающей выборки описания принимают значения из множества =, причем , если соответствующий объект и . Множеством является отрезок действительной оси , точки которого интерпретируются как эмпирические оценки условных вероятности принадлежности объекта классу . В качестве функции расстояния может быть использована обычная эвклидова метрика. Тогда оказывается равной доли объектов из в подвыборке а функционал тождественен статистике критерия Хи-квадрат.

В случае, когда целью является исследование зависимости некоторой переменной , принимающей значения из отрезка действительной оси , от переменных множеством является сам отрезок . При этом его точки интерпретируются как эмпирические оценки условных математических ожиданий . При использовании в качестве функции расстояния эвклидовой метрики оказывается равной среднему значению по подвыборке . В случае, когда , оказывается равной медиане значений по подвыборке .

Рассмотрим задачу, в которой целью является исследование влияния переменных , характеризующих, например, технологию изготовления какого-либо механизма или условия его эксплуатации, на продолжительность безотказной работы этого механизма. В практике биомедицинских исследований также встречается совершенно аналогичная задача, касающаяся изучения влияния параметров, характеризующих курс лечения или состояние больных, страдающих тяжелым трудноизлечимым заболеванием, на продолжительность жизни этих больных. Подобную задачу часто называют задачей анализа выживаемости. Наиболее полно информацию о возможной продолжительности жизни больного дает кривая (функция) выживаемости, задающая для каждого момента времени вероятность того, что больной дожил до этого момента . Характерной чертой эмпирических данных по выживаемости является достаточно высокая доля цензурированных наблюдений, когда известна не дата отказа (смерти больного), а лишь дата последнего наблюдения.

Предложенный метод разбиений может быть использован для анализа данных по выживаемости. При этом множеством является множество помощью пар , где обозначает момент последнего наблюдения за больным. Параметр принимает значение 1, если момент последнего наблюдения является фиксацией даты смерти больного. Если больной был жив в момент последнего наблюдения, то . Множество эмпирических оценок функций выживаемости представляет собой множество невозрастающих функций, принимающих значения из отрезка действительной оси и определенных на полуинтервале , где . На самом деле пара задает эмпирическую функцию выживаемости , принимающую значение 1 на полуинтервале . Если , то на полуинтервале . В противном случае считается, что функция при не определена. Следовательно, можно считать .

Существую различные способы задания функции расстояния между элементами при реализации метода разбиений для анализа данных по выживаемости. Простейшим из них является интегрирование квадрата разности двух функций выживаемости на некотором достаточно большом отрезке времени, который определяется исследователем отдельно для каждой конкретной задачи. На том участке отрезка, когда по крайней мере одна из функций не определена квадрат разности двух функций выживаемости заменяется среднеквадратичным отклонением от среднего по всем объектам обучающей выборки с функциями выживаемости, определенными на . Пусть и функции обе определены на отрезке

, где , выборка - множество объектов с функциями выживаемости, определенными на отрезке , -число объектов в выборке . При таком задании функции расстояния эмпирическая оценка в случае использования формулы (1) оказывается равной функции , принимающее точке значение равное доле выживших больных из тех, состояние которых в момент известно.

Верификация полученных результатов. Важнейшим свойством результатов анализа является их статистическая достоверность. Задача значительно упрощается, если объем исходной эмпирической информации достаточен для формирования двух независимых выборок и . Причем выборка используется для поиска оптимального разбиения внутри одной из заранее заданных моделей, а выборка для оценки статистической значимости выявленных закономерностей, которая трактуется как оценка статистической значимости различий между группами объектов , формируемыми разбиением . Для получения такой оценки могут быть использованы стандартные статистические критерии: Хи-квадрат, Стьюдента, Уилкоксона, logrank тест и др..

Для случая, когда объем исходной информации ограничен, предлагается перестановочный тест, позволяющий использовать одну и ту же выборку для получения оптимальных решений и для их верификации. Произведем разбиение множества таким образом, чтобы выполнялись следующие два условия:

а) каждый из элементов разбиения имел отличную от нуля вероятностную меру;

б)предположим, что , где - элементы , и пусть -выборка, отличная от только описаниями , тогда при любом разбиении для функционала качества выполняется условие .

в) два отличных друг от друга описания принадлежат разным элементам разбиения .
Произведем разбиение множества таким образом, чтобы выполнялись следующие два условия:

а) каждый из элементов разбиения имел отличную от нуля вероятностную меру;

б) два отличных друг от друга вектора принадлежат разным элементам разбиения .

Далее под вероятностью появления некоторой выборки будем понимать вероятностную меру ее окрестности, задаваемой разбиениями и .

Перестановочный тест основан на проверке нулевой гипотезы о независимости прогнозируемого описания от переменных, используемых при построении оптимальных разбиений. Предполагается также, что объекты обучающей выборки выбирались независимо. Мерой статистической значимости как обычно считается вероятность случайного появления в случае справедливости нулевой гипотезы выборок с величиной оптимального значения функционала качества (статистики), достигнутого на исследуемой выборке при одной и той же модели разбиений.

При справедливости нулевой гипотезы и условия независимости объектов следует, что вероятность появления выборки , полученной из выборки с помощью перестановки , совпадает с вероятностью появления выборки . Отсюда следует, что для доли отличных друг от друга выборок, полученных из путем перестановок, на которых достигается оптимальное значение функционала качества превышающее величину , справедливо равенство . Здесь -множество выборок , для которых выборочное распределение на элементах множеств и совпадает с аналогичным выборочным распределением для , -оптимальное разбиение для выборки . Следует отметить, что в случае, если конечно. Величину можно сделать сколь угодно малой, уменьшая мелкость разбиения . Для оценки доли в большинстве случаев могут быть использованы только методы Монте-Карло, в которых используется множество перестановок, полученных с помощью генератора случайных чисел. Однако в наиболее простом случае модели I и бинарного удалось произвести точный расчет распределения интегрального функционала качества для при условии соблюдения нулевой гипотезы для выборок, содержащих не менее 35 объектов.

Пример практического использования метода построения оптимальных разбиений. Была осуществлена практическая реализация метода построения оптимальных разбиений, предназначенная для изучения различий между распределениями переменных в двух непересекающихся классах и . С ее помощью были проведены исследования на различных массивах эмпирических данных. Приведем один пример, наглядно иллюстрирующий работу и возможности метода. Была поставлена задача сравнения распределения параметров, характеризующих распределение опухолевых клеток по различным фазам клеточного цикла, у двух групп больных, страдающих остеогенной саркомой. В первую группу вошли больные, у которых метастазирование началось в течение первого года после окончания лечения. Во вторую группу вошли больные, прожившие без метастазов не менее одного года после окончания лечения. Оптимальное разбиение, представленное на рисунке 4, найдено в рамках модели III.





Рис 4.

Точки, соответствующие больным первой группы обозначены крестиками, а точки, соответствующие больным второй группы кружками. Разбиение выявило сложный нелинейный характер зависимости выживаемости от переменных, соответствующих осям Y и X . В левой верхней и нижней правой подобластях число точек, соответствующих больным второй группы, превышает число точек, соответствующих больным первой группы. В правой верхней и нижней левой подобластях число точек, соответствующих больным первой группы, напротив превышает число точек, соответствующих больным второй группы. Таким образом для основной массы больных существует тенденция уменьшения выживаемости с ростом значений переменных, соответствующих осям Y и X. Однако при низких значениях обоих переменных выживаемость очень низка. Обнаруженная закономерность соответствует существующим представлениям. Для оценки ее статистической значимости был использован перестановочный тест. С помощью генератора случайных чисел было получено 2000 случайных перестановок и сформировано 2000 случайных таблиц. Только в 36 из них интегральный функционал качества превысил значение, достигнутое на настоящей обучающей выборке. Следовательно можно сказать, что результат значим на уровне p<0.02.
Литература:

  1. O.V.Senko, A.V.Kuznetsova. The Use of Partitioning for Analysis of Biomedical Data. Proceedings of 14th International Workshop on Statistical Modelling, Graz, Austria, pp.656-659, 1999.

  2. O.V.Senko, A.V.Kuznetsova, G.N. Matchak, V.V. Vakhotsky, T.N. Zabotina, O.V.Korotkova. The Prognosis of Survivance in Solid Tumor Patients Based on Optimal Partitioning of Immunological Parameters Ranges. Journal of Theoretical Medicine. Vol. 2, pp.317-327.

  3. Sen’ko, O.V., Kuznetsova, A.V. (1998). The use of partitions constructions for stochastic dependencies approximation. Proceedings of the International conference on systems and signals in intelligent technologies. 28-29 september, Minsk (Belarus), pp. 291-297.

  4. Chou P. (1991). Optimal Partitioning for Classification and Regression Trees. IEEE Trans. Pattern Anal. and Mach. Intell, vol. 13,pp. 340-354.

Похожие:

Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков. Введение iconПоиск оптимальных путей в направленных нечетких графах 2006 г. Голубев И. В
В статье рассмотрен подход к реализации процедуры поиска оптимальных путей в направленных нечетких графах. Предложенный подход позволяет...
Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков. Введение iconРазработка модели бизнес-прецедентов Модель бизнес-прецедентов
Модель бизнес-прецедентов описывает бизнес-процессы с точки зрения внешнего пользователя, т е отражает взгляд на деятельность организации...
Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков. Введение iconПолиэдральные разбиения пространства
Разбиения пространств – активно развивающаяся область математики, имеющая приложения в разных областях математики, в физике, кристаллографии...
Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков. Введение iconПостроение матриц импликаций для выявления закономерностей в интеллектуальных распознающих системах
Приводится алгоритм построения матриц импликаций, используемых для выявления закономерностей в задачах распознавания образов с матричным...
Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков. Введение iconЛ. И. Левадной «Коммуникативная модель в синхронном переводе как поиск оптимальных переводческих решений» Рецензируемое диссертационное исследование
Л. И. Левадной «Коммуникативная модель в синхронном переводе как поиск оптимальных переводческих решений»
Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков. Введение iconЗакон для нечетких множеств Некоторые свойства операций над множествами не выполнены для нечетких множеств. Так, за исключением случая, когда
Цель настоящего приложения глубже изучить свойства нечетких множеств и показать, что теория нечетких множеств в определенном смысле...
Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков. Введение iconУдк 519. 725 Поиск оптимальных линеек Голомба действием групп подстановоК на разбиениЯ

Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков. Введение iconЖурнала «кибернетика» за 1982 г. №1
Закревский А. Д. Явление импликативных закономерностей в булевом пространстве признаков и распознавание образов
Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков. Введение iconТехнологии программирования
Бинарный поиск в статических таблицах. Оптимальные деревья бинарного поиска. Эвристики построения оптимальных деревьев
Поиск нечетких закономерностей по выборке прецедентов, основанный построении оптимальных разбиений пространства предполагаемых прогностических признаков. Введение iconИнвариантность подходов к формированию стратегии интеграции валютного пространства Д. А. Бригида
В статье рассматриваются различные подходы к формированию единого валютного пространства с точки зрения «классических» и «формальных»...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org