3. Разработка новых математических и статистических методов и технологий обработки археологических данных для палеолитических объектов А) ЗНАЧИМОСТЬ И УСТОЙЧИВОСТЬ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ В ЗАДАЧЕ ПОИСКА ОПТИМАЛЬНОГО РАЗБИЕНИЯ
Введение
Задача проведения оптимальной (по количеству классов) автоматической классификации поставлена достаточно давно, но предложенные решения носят скорее эвристический, чем статистический характер, что оставляет вопрос об оптимальной классификации открытым .
Автоматическая классификация, синонимами которой можно считать термины "разбиение", "таксономия", "кластерный анализ", применяется в целях получения гипотез о логической структуре изучаемой статистической совокупности объектов. Слово автоматическая подчеркивает тот факт, что разделение проводится без предварительного обучения с помощью учителя или обучающей выборки, на которой все объекты разнесены по классам. Результатом классификации является разбиение исходной совокупности объектов на некоторое число классов (таксонов, кластеров). Содержательный смысл деления на классы состоит в выделении качественно различных состояний объектов, характеризуемых своими особенными закономерностями. Дальнейшее исследование может как подтвердить, так и опровергнуть гипотезу о существовании обнаруженной кластерной структуры. Подтверждением правильности классификации является ее объяснительная и предсказательная сила при выходе за пределы исходной выборки как по признакам, так и по объектам.
Классификация применяется на предварительном этапе исследования, когда до проведения основной статистической обработки (построения регрессионных моделей, оценки параметров генеральной совокупности и т.д.) добиваются расслоения этого множества на однородные (в смысле проводимого затем статистического анализа) порции данных.
Современная технология автоматической классификации характеризуется набором различных алгоритмов распределения объектов по кластерам, изза-чего проверка статистической значимости в действительности мало неприменима.
В данной работе описаны несколько первых шагов на пути превращения автоматической классификации из набора алгоритмов в статистический метод, который позволит не только получать практически полезный результат, но и оценивать статистическую значимость нулевой гипотезы (об отсутствии кластерной структуры, или, что эквивалентно, - об однокластерности статистической совокупности объектов).
Описываемый далее подход является развитием идей, развиваемых участниками проекта и их коллегами на протяжении многих лет. Ранее была описана общая постановка задачи автоматического определения оптимальной сложности разбиения для самых разных методов. В случае кластерного анализа сложность разбиения интерпретируется как количество кластеров. В качестве критерия оптимальности предлагалось использовать такие показатели качества разбиения, как значимость гипотезы однокластерности и устойчивость полученной кластерной структуры, измеряемая процентом оставшихся в своих кластерах объектов при генерации повторных выборок методом Boot-Strap.
В целом продолжая предложенные подходы, мы все же несколько сместили акценты. Если результаты, полученные в монографии, можно использовать для создания статистических таблиц значимости при кластеризации по стандартизованным данным, то здесь мы напрямую (в статистических экспериментах) измеряем значимость разбиений для определения оптимального количества кластеров. Такое смещение акцента связано с существенным ростом за последние 5 лет доступных рядовому пользователю вычислительных мощностей персональных компьютеров, что делает возможным проведение полномасштабных вычислительных экспериментов в реальном времени.
Освободив показатель устойчивости классификации от его основных обязанностей – служить критерием оптимальности разбиения, авторы нашли для него новое применение – составление "структурного портрета" полученного разбиения, который выявляет взаимопереходы кластеров, их взаимодействия через обмен объектами в эспериментах с имитацией повторного сбора данных. Такие "структурные портреты" дают дополнительную информацию о кластерах, позволяя преодолеть недостатки выбранного метода кластеризации (k-средних), который является оптимальным по скорости, но накладывает существенные ограничения на форму выделяемых кластеров в виде сферических сгущений точек (объектов). Большая частота перетекания объектов между двумя соседними кластерами (межкластерная неустойчивость) дает основания выдвинуть гипотезу о единстве этих кластеров и в дальнейшем интерпретировать их как один кластер несферической формы.
Перед тем, как приступить к описанию способов определения значимости, рассмотрим кратко, что представляет из себя критерий качества разбиения и из каких шагов складывается алгоритм кластеризации. Из соображений простоты реализации и скорости выполнения нами были выбраны Евклидова метрика пространства признаков и простейший алгоритм кластеризации (k-средних), хотя способ измерения значимости не накладывает особых ограничений ни на метрику, ни на сам алгоритм. Но все же необходимо отметить, что к поведению алгоритма предъявляются повышенные требования, поэтому мы были вынуждены внести в него некоторые изменения, которые позволили улучшить качество разбиения и, как побочный эффект, сократить время вычислений (за счет уменьшения количества итераций).
Всероссийская школа молодых ученых «Научные основы разработки методов модификации поверхности с использованием новых электронно-ионно-плазменных технологий для повышения...