Программа spss реализует три метода кластерного анализа: 2 -этапный (Two-Step)



Скачать 200.34 Kb.
Дата10.01.2013
Размер200.34 Kb.
ТипПрограмма
Кластерный анализ

Сравнение кластерного и факторного анализов 1

Этапы кластерного анализа 2

Кластерный анализ матрицы различий (сходства) 3

Задание 1. Создать матрицу различий 8 х 8 с именами объектов a b c d e f g h. 3

Параметры диалогового окна Hierarchical Cluster Analysis 4

Параметры диалогового окна Hierarchical Cluster Analysis: Statistics 4

Параметры диалогового окна Hierarchical Cluster Analysis: Plots 5

Параметры диалогового окна Hierarchical Cluster Analysis: Method 5

Задание 2. Выполните кластерный анализ объектов с дополнительными параметрами 6

Задание 3. Выполните кластерный анализ для переменных и сравните результаты с факторным анализом 7

Задание 4. Выполните кластерный анализ с применением языка Syntax 7

Представление результатов 7


Программа SPSS реализует три метода кластерного анализа:

  1. 2-этапный (Two-Step) – позволяет выявить группы (кластеры) объектов по заданным переменным, если эти группы действительно существуют. Программа автоматически определяет количество существующих кластеров (групп). Если невозможно однозначно определить количество кластеров, все объекты помещаются в один.

  2. К-средних (K-means) – разбивает по заданным переменным все множество объектов на заданное пользователем число кластеров так, чтобы средние значения для кластеров по каждой из переменных максимально различались.

  3. Иерархический (Hierarchical) – наиболее гибкий из рассматриваемых методов позволяет детально исследовать структуру различий между объектами и выбрать наиболее оптимальное число кластеров, поэтому он применяется наиболее .

Сравнивая иерархический кластерный анализ с факторным анализом, при множестве общих черт между существуют и различия.

Сравнение кластерного и факторного анализов


Главное сходство между кластерным и факторным анализами в том, что оба предназначены для перехода от исходной совокупности множества переменных (или объектов) к существенно меньшему числу факторов (кластеров).

Основные отличия

1. Цель факторного анализа – замена большого числа исходных переменных меньшим числом факторов. Кластерный анализ, как правило, применяется для уменьшения числа объектов путем их группировки. В кластерном анализе обычно переменные не группируются, а выступают в качестве критериев для группировки объектов. Кластерный анализ применяется обычно для выделения групп объектов, исходя из их сходства по измеренным признакам.

Группы объектов, выделенные в результате кластерного анализа на основе заданной меры сходства между объектами, называются кластерами.

2. Начиная с версии SPSS 10.
0, программа позволяет проводить кластерный анализ и только объектов, и переменных. В последнем случае кластерный анализ может выступать как более простой аналог факторного анализа.

3. Различие в выполнении статистических операций:

  • факторный анализ – на каждом этапе извлечения фактора для каждой переменной подсчитывается доля дисперсии, которая обусловлена влиянием данного фактора.

  • кластерный анализ – вычисляется расстояние между текущим объектом и всеми остальными объектами, и кластер образует та пара, для которой расстояние оказалось наименьшим. Подобным образом каждый объект группируется либо с другим объектом, либо включается в состав существующего кластера. Процесс кластеризации конечен и продолжается до тех пор, пока все объекты не будут объединены в один кластер.

4. Вид кластерного анализа – иерархический кластерный анализ, часто используется в биологии, экономике, социологии, политологии, а в психологии, обычно анализируют переменные для определения статистических связей между ними; которые, как правило, указывают на сходство между теми или иными исследуемыми факторами.

5. Как и в случае факторного анализа, выполнение кластерного анализа и его результаты зависят от ряда параметров: способа вычисления расстояния между объектами, кластеризации индивидуальных объектов и т. д.

Этапы кластерного анализа


  1. Выбор переменных-критериев для кластеризации.

Для демонстрации кластерного анализа в заданиях используется файл cars.sav, содержащий гипотетические данные о 15 подержанных автомобилях разных марок, выставленных на продажу. Файл имеет структуру, подходящую для наглядной иллюстрации кластерного анализа.

Для данного файла кластеризация будет осуществляться по следующим переменным:

    • цена (стоимость),

    • т_сост (экспертная оценка технического состояния по 10-балльной шкале),

    • возраст (количество лет эксплуатации),

    • пробег (пройденный километраж с начала эксплуатации).

  1. Выбор способа измерения расстояния между объектами, или кластерами (изначально считается, что каждый объект соответствует одному кластеру).

По умолчанию используется квадрат Евклидова расстояния – расстояние между объектами равно сумме квадратов разностей между значениями одноименных переменных объектов.

Предположим, что марка автомобиля А имеет показатели технического состояния и возраста 5 и 6, а марка В – 7 и 4 соответственно.

Тогда по этим двум переменным (координатам) расстояние между марками А и В вычисляется следующим образом: (5 - 7)2 + (6 - 4)2 = 8.

При выполнении анализа сумма квадратов разностей вычисляется для всех переменных. Получаемые расстояния используются программой при формировании кластеров1.

Относительно вычисления расстояния может возникнуть следующий вопрос: будет ли адекватным результат кластерного анализа в том случае, если переменные имеют различные шкалы измерения? Так, все переменные файла cars.sav имеют самые разные шкалы.

Для решения проблемы шкалирования в SPSS используется стандартизация, в частности, ее простой метод – нормализация переменных, приводящая все переменные к стандартной z-шкале (среднее равно 0, стандартное отклонение – 1).

При нормализации всех переменных при проведении кластерного их веса становятся одинаковыми. В случае если все исходные данные имеют одну и ту же шкалу измерения, либо веса переменных по смыслу должны быть разными, стандартизацию переменных проводить не нужно.

  1. Формирование кластеров

Два основных метода формирования кластеров:

  • метод слияния – исходные кластеры увеличиваются путем объединения до тех пор, пока не будет сформирован единственный кластер, содержащий все данные.

  • метод дробления – сначала все данные объединяются в один кластер, который затем делится на части до тех пор, пока не будет достигнут желаемый результат.

По умолчанию SPSS использует метод слияния.

В методе слияния предусмотрены несколько способов объединения объектов. Способ, применяемый по умолчанию, называется межгрупповым связыванием, или связыванием средних внутри групп. SPSS вычисляет наименьшее среднее значение расстояния между всеми парами групп и объединяет две группы, оказавшиеся наиболее близкими.

На первом этапе, когда все кластеры представляют собой одиночные объекты, данная операция сводится к обычному попарному сравнению расстояний между объектами. Термин среднее значение приобретает смысл лишь на втором этапе, когда сформированы кластеры, содержащие более одного объекта.

Например, для данных файла cars.sav на начальном этапе имеется 15 кластеров (объектов); сначала в кластер объединяются два объекта с наименьшим расстоянием друг от друга. Затем подсчет расстояний повторяется, и в кластер объединяется еще одна пара переменных.

На втором этапе получается либо 13 свободных объектов и 1 кластер, объединяющий 2 объекта, либо 11 свободных объектов и 2 кластера по 2 объекта в каждом. В итоге все объекты окажутся в одном большом кластере.

  1. Интерпретация результатов.

Желаемое число кластеров и оценка результатов анализа зависят от целей исследователя. Для файла cars.sav, приведенного ниже в заданиях, предпочтительное число кластеров 3. Анализ показывает, что все марки можно разделить на 3 группы:

  1. высокая стоимость (среднее значение – 15230), небольшой срок эксплуатации (4 года) и средний пробег (85 400 км).

  2. средняя стоимость, небольшой пробег, наибольший возраст, но хорошее техническое состояние.

  3. недорогие модели с большим пробегом и невысоким рейтингом технического состояния.



Кластерный анализ матрицы различий (сходства)


Часто исходной информацией для кластерного анализа являются данные о различии (сходстве) объектов, а не данные типа объекты-переменные.

Например, респондент может оценивать различие (сходство) объектов, предъявляемых попарно, с перебором всех пар объектов. Или данными могут быть частоты совместной встречаемости для каждой пары объектов. В этих случаях исходные данные представляют собой квадратную матрицу, как правило, симметричную относительно главной диагонали, каждый элемент которой – мера различия (или сходства) пары объектов, которым соответствует строка и столбец матрицы.

Кнопочный интерфейс программы SPSS не позволяет обрабатывать матрицы различий методами кластерного анализа (в многомерном шкалировании это возможно). Поэтому для обработки таких данных используется командный язык Syntax.

В SPSS предусмотрен формат данных для матрицы различия (сходства), которая создается при помощи языка Syntax.

Задание 1. Создать матрицу различий 8 х 8 с именами объектов a b c d e f g h.


  1. Открыть окно редактора синтаксиса: команда New Syntax (НовыйСинтаксис)File.

  2. В открытом окне Syntax ввести следующий текст:

DАТА LIST FREE /ROWTYPE_(a8) VARNAME_(a8) a b c d e f g h.

BEGIN DATA

PROX A 0 6 2 7 18 0 1 5

PROX B 6 0 14 3 8 4 19 14

PROX C 2 14 0 30 12 4 6 8

PROX D 7 3 30 0 1 16 3 4

PROX E 18 8 12 1 0 19 13 14

PROX F 0 4 4 16 19 0 5 1

PROX G 1 19 6 3 13 5 0 16

PROX H 5 14 8 4 14 1 16 0

END DATA.

EXECUTE.

SAVE OUTFILE='C:\temp\expro.sav'.

Результатом выполнения этой команды будет создание матрицы различий 8x8 в окне редактора данных.

Матрица может содержать меры не различия, а сходства, например, если каждое значение матрицы – частота совместной встречаемости. Тогда к тексту синтаксиса следует добавить строку:

VALUE LABELS ROWTYPE_ 'PROX' 'SIMILARITY' .

  1. Чтобы выполнить введенную команду, ее нужно выделить и щелкнуть на кнопке Run Current (Запуск команды) панели инструментов.

Второй вариант запуска выбрать в меню команду RunAll (ЗапуститьВсё).

Любой пропущенный знак, включая завершающую точку, или неверно написанное слово приведет к выдаче программой сообщения об ошибке.

  1. После выполнения команды в редакторе данных, замените полученную матрицу своими данными, проследите, чтобы количество строк равнялось количеству столбцов, в каждой строке переменной ROWTYPE_ стояло значение PROX, а в строках переменной VARNAME_ присутствовало имя объекта.

Для выполнения кластерного анализа методом межгруппового связывания с выводом таблицы шагов агломерации и дендрограммы следует выполнить следующий синтаксис:

CLUSTER

/MATRIX IN (*)

/METHOD BAVERAGE

/PRINT SCHEDULE

/PLOT DENDROGRAM.

Вся синтаксическая конструкция, создающая матрицу сходства 8x8 попарного различия 8 объектов и выполняющая кластерный анализ указанным методом, сохранена в файле Synt_Clust.sps.

Можно открыть этот файл и выполнить его указанным выше способом без предварительной редакции или отредактировав.

Например, можно заменить указание матрицы сходства на задание матрицы различий. Для этого достаточно заменить в строке VALUE LABELS ROWTYPE, слово SIMILARITY на слово DISIMILARITY/

Для выполнения кластерного анализа с включением нескольких величин после загрузки файла данных выполняется последовательно Analyze (Анализ)ClassifyHierarchical Cluster (КлассификацияИерархическая кластеризация) окно Hierarchical Cluster Analysis (Иерархический кластерный анализ)

Дальнейшие действия зависят от выбранного типа кластеризации. Для этой цели в группе Cluster (Кластеризация) предусмотрены два переключателя

  • Cases (Объекты) – указать в списке Variable(s) (Переменные) переменных, значения которых будут использоваться при кластеризации объектов (в задании это все временные, кроме переменной марка, т.к. она представляет собой марку автомобиля)

  • Variables (Переменные)

Далее задать способ идентификации объектов. Как правило, в роли идентификатора выступает переменная, содержащая уникальный номер объекта или его имя в виде строки. В данном случае мы будем использовать подходящую для этого переменную марка. Имя идентифицирующей переменной указывается в поле Label Cases by (Различать объекты по)

Параметры диалогового окна Hierarchical Cluster Analysis


Если вместо переключателя Cases (Объекты) в группе Cluster (Кластеризация) установить переключатель Variables (Переменные), то в списке Variable(s) (Переменные) потребуется указать переменные, помещаемые в кластер, а поле Label Cases by (Различать объекты по) останется пустым.

По умолчанию флажки Statistics (Статистики) и Plots (Диаграммы) в группе Display (Отображать) установлены, и, как правило, не нужно их сбрасывать.

В нижней части диалогового окна расположены четыре кнопки, предназначенные для задания дополнительных параметров команды:

Параметры диалогового окна Hierarchical Cluster Analysis: Statistics


Statistics (Статистики) на экране появляется диалоговое окно Hierarchical Cluster Analysis: Statistics (Иерархический кластерный анализ: Статистики)

Флажок Agglomeration Schedule (Порядок агломерации) по умолчанию установлен, обеспечивает включение в результаты кластерного анализа стандартного компонента окна вывода.

Флажок Proxy Matrix(Матрица близостей) – отображение информации о расстояниях между объектами и кластерами. Использование матрицы удобно для небольших файлов данных, т.к. с увеличением числа объектов размер матрицы резко возрастает, что делает ее громоздкой и неудобной для восприятия.

Флажок Proximity Matrix (Матрица близостей) предназначен для отображения информации о расстояниях между объектами и кластерами. Использование матрицы удобно лишь для небольших файлов данных, т.к. с увеличением числа объектов размер матрицы резко возрастает, что делает ее громоздкой и неудобной для восприятия.

Группа Cluster Membership (Принадлежность к кластерам) состоит из трех переключателей:

  • None (Нет) – в выводимые результаты включаются все кластеры (вариант по умолчанию).

  • Single solution (Одно решение) – позволяет задать точное число кластеров в решении.

  • Range of solutions (Диапазон решений) – обеспечивает вывод нескольких решений с разным числом кластеров. Например, если ввести в поле From (От) число 3, а в поле through (До) число 5, то в выводимые результаты будут включены все решения с 3, 4 и 5 кластерами.

Параметры диалогового окна Hierarchical Cluster Analysis: Plots


Plots (Диаграммы) в окне Hierarchical Cluster Analysis (Иерархический кластерный анализ) открывает диалоговое окно Hierarchical Cluster Analysis: Plots (Иерархический кластерный анализ: Диаграммы)

Флажок Dendogram (Дендограмма) позволяет включить в выводимые результаты ту же информацию, которая содержится на диаграмме накопления, предлагаемой по умолчанию, а также относительную величину разности между переменными или кластерами на каждом шаге процесса.

Щелчок на кнопке Method в окне Hierarchical Cluster Analysis (Иерархический кластерный анализ) открывает диалоговое окно Hierarchical Cluster Analysis: Method (Иерархический кластерный анализ: Метод)

Параметры диалогового окна Hierarchical Cluster Analysis: Method


Раскрывающиеся списки:

  • Cluster Method (Метод кластеризации) – наиболее часто используются пункты:

    • Between-groups linkage (Межгрупповое связывание) – связывание средних внутри групп. Суть метода – объединению на каждом шаге подвергаются кластеры или объекты, расстояние между которыми минимально.

    • Cluster Method (Метод кластеризации) содержит следующие пункты:

      • Within-groups linkage (Внутригрупповое связывание);

      • Nearest neighbor (Одиночное связывание);

      • Furthest neighbor (Полное связывание);

      • Centroid clustering (Центроидная кластеризация);

      • Ward's method (Метод Варда).

  • Interval (Интервал) – по умолчанию выбран пункт Squared Euclidean distance (Квадрат Евклидова расстояния), т.е. расстояние между объектами вычисляется как разность квадратов соответствующих переменных этих объектов, участвующих в анализе. Остальные пункты списка Interval (Интервал):

    • Cosine (Косинус) – метод измерения близости, основанный на косинусах век­торов значений;

    • Pearson correlation (Корреляция Пирсона) — метод измерения близости, осно­ванный на корреляции векторов значений;

    • Chebychev (Чебышев) – вычисление расстояния как максимума абсолютной величины разности между элементами;

    • Block (Блок) – определяет меру расстояния по метрике города (см. главу 23);

    • Minkowsky (Минковский) – определяет меру расстояния Минковского (сМ-главу 23);

    • Customized (Настройка) – позволяет задавать пользовательскую меру расстоя­ния.

  • Standardize (Стандартизация) – выбор процедуры стандартизации, по умолчанию выбран пункт None (Нет), но когда стандартизация необходима, чаще всего выбирают пункт Z scores (z-шкала). В качестве альтернативы нормализации можно выбрать два следующих пункта выпадающего списка, но результат стандартизации во всех трех случаях будет одним и тем же. Оставшиеся два пункта, в которых допускается варьирование среднего значения или стандартного отклонения распределения, могут привести к другим результатам; выбор какого-либо из них определяется степенью его применимости к исследуемым данным и удобством для исследователя. Остальные пункты списка Standardize (Стандартизация):

    • Range -1 to 1 (Интервал от -1 до 1) – значения всех переменных заключаются в интервал от -1 до 1;

    • Range 0 to 1 (Интервал от 0 до 1) – значения всех переменных заключаются в интервал от 0 до 1;

    • Maximum magnitude of 1 (Максимум, равный 1) – распределения изменяются таким образом, что их максимальные значения становятся равными 1;

    • Mean of 1 (Среднее, равное 1) – распределения изменяются таким образом, что их средние значения становятся равными 1 (стандартное отклонение может варьироваться);

    • Standard deviation of 1 (Стандартное отклонение, равное 1) – распределения изменяются таким образом, что их стандартные отклонения становятся равными 1 (среднее значение может варьироваться).

  • Группа Transform Measures (Преобразование значений) имеется три флажка, позволяющих изменить значения переменных:

    • Absolute values (Абсолютные значе­ния),

    • Change Sign (Смена знаков)

    • Rescale to 0-1 range (Свести к интервалу 0-1)

  • Save (Сохранить) – открывает окно Hierarchical Cluster Analysis: Save New Variables (Иерархический кла­стерный анализ: Сохранение новых переменных), с помощью которого можно создавать новые переменные, значения которых будут хранить вычисленные статистические величины:

    • установлен переключатель None (Нет) – никакого сохранения в процессе анализа не производится. Иначе при выполнении анализа будут созданы переменные, которые окажутся в конце файла.

    • установлен переключатель Single Solution (Одно решение) и указано в поле число 3 – получите новую переменную, значение которой равно 1, 2 или 3 в зависимости от того, какому кластеру будет принадлежать соответствующий объект в решении.

    • установлен переключатель Range of solutions (Диапазон решений) и в поле From (С) указано число 3, а в поле Through (По) число 5 – создадутся 3 новые переменных:

      • первая будет принимать значения от 1 до 3,

      • вторая – от 1 до 4,

      • третья — от 1 до 5.

Задание 2. Выполните кластерный анализ объектов с дополнительными параметрами


  1. Загрузите файл cars.sav

  2. Analyze ClassifyHierarchical Cluster окно Hierarchical Cluster Analysis (Иерархический кластерный анализ), выполните очистку окна Reset

  3. Выделите переменную Марка и переместите ее в поле Label Cases by (Различать объекты по).

  4. Выделите все оставшиеся в списке переменные и переместите их в список Variable(s)

  5. Щелкните на кнопке Plots (Диаграммы)окно Hierarchical Cluster Analysis: Plots (Иерархический кластерный анализ: Диаграммы)

  6. Установите флажок Dendogram и переключатель None в группе Icicle (Диаграмма накопления)Continueокно Hierarchical Cluster Analysis.

  7. Method (Метод)окно Hierarchical Cluster Analysis: Method (Иерархический кластерный анализ: Метод):

  • в списке Cluster Method (Метод кластеризации) оставьте выбранным пункт Between-groups linkage (Межгрупповое связывание),

  • в списке Standardize (Стандартизация) выберите пункт Z score (z-шкала)Continue (Продолжить)окно Hierarchical Cluster Analysis.

  1. Щелкните на кнопке Save (Сохранить) окно Hierarchical Cluster Analysis: Save New Variables (Иерархический кластерный анализ: Сохранение новых переменных)переключатель Single Solution (Одно решение) в поле рядом введите значение 3 Continue окно Hierarchical Cluster AnalysisОК окно вывода

Задание 3. Выполните кластерный анализ для переменных и сравните результаты с факторным анализом


В качестве меры близости следует выбрать корреляцию. Корреляции надо учитывать по абсолютной величине, т.к. большие (по модулю) отрицательные их величины так же свидетельствуют о связи, как и большие положительные. Это необходимо иметь в виду, если речь идет о кластеризации переменных.

Большинство остальных параметров команды оставляют установленными по умолчанию; даже в стандартизации в данном случае нет необходимости, т.к. на величину корреляции не влияют единицы измерения переменных.


  1. Загрузите файл TestlQ.sav

  2. В меню Analyze Classify Hierarchical Cluster окно Hierarchical Cluster Analysis

  3. В группе Cluster (Кластеризация) переключатель Variables

  4. Выделите переменные и1, и2 …, и11 и переместите их список Variable(s)

  5. Щелкните на кнопке Plots (Диаграммы) окно Hierarchical Cluster Analysis: Plots (Иерархический кластерный анализ: Диаграммы) установите флажок Dendogram (Дендограмма) и переключатель None в группе Icicle (Диаграмма накопления) Continue окно Hierarchical Cluster Analysis (Иерархический кластерный анализ).

  6. Щелкните на кнопке Methodокно Hierarchical Cluster Analysis: Method (Иерархический кластерный анализ: Метод):

  • в списке Interval (Интервал) пункт Pearson correlation (Корреляция Пирсона)

  • в группе Transofm Measures (Преобразование значенийфлажок Absolute values (Абсолютные значения) Continue окно Hierarchical Cluster Analysis ОКокно вывода.


В задании 3 реализован кластерный анализ 11 показателей теста интеллекта. В выводимые данные включается информации о переменных: число корректных значений объектов, число утерянных значений и т. п., выведены шаги последовательности агломерации (agglomeration schedule) и горизонтальная дендрограмма.

Сравните полученные результаты с результатами факторного анализа.

Задание 4. Выполните кластерный анализ с применением языка Syntax


  1. Создайте файл Syntax или откройте файл примера Synt_Clust.sps.

  2. В открывшемся окне дважды щелкните на имени Synt_Clust.sps редактор синтаксиса с текстом команд. Для замены матрицы сходства на матрицу различий замените в строке VALUE LABELS... слово SIMILARITY на слово DISIMILARITY.

  3. Выберите в меню команду RunAll

Будет создан и открыт новый файл данных, содержащий матрицу 8x8 попарных различий 8 объектов, открыто окно вывода, содержащее результаты кластерного анализа этих 8 объектов методом средней связи (между группами).

В окне редактора данных можно заменить представленную матрицу своими данными и выполнить кластерный анализ, отредактировав открытое окно редактора синтаксиса: удалить все строки с начала до строки CLUSTER RunAll

Представление результатов


Результаты представлены в виде таблица шагов агломерации Средние связи между группами.

Колонка таблицы Cluster Combined (Кластер объединен с), содержит столбцы Кластер 1 и Кластер 2, которые соответствуют номерам кластеров, объединяемых на данном шаге.

После объединения кластеру присваивается номер, соответствующий номеру в колонке Cluster 1 (Кластер 1). На первом шаге объединяются объекты 5 и 14 и кластеру присваивается номер 5, далее этот кластер на шаге 3 объединяется с элементом 4 и новому кластеру присваивается номер 4 и т.д.

Колонка, Coefficients (Коэффициент), содержит значение расстояния между кластерами, которые объединяются на данном шаге.

Колонка Stage Cluster First Appears (Этап первого появления кластера) показывает, на каком шаге до этого появлялся первый и второй из объединяемых кластеров.

Колонка, Next Stage (Следующий этап), показывает, на каком шаге снова появится кластер, образованный на этом шаге.

Из таблице видно:

  • на первом этапе происходит объединение в кластер пары объектов, расстояние между которыми является наименьшим.

  • на втором этапе SPSS снова подсчитывает расстояния между объектами и объединяет в кластер пару наиболее близких объектов; при этом в результате может получиться либо один кластер из трех объектов, либо два кластера из двух объектов. Процесс слияния продолжается до тех пор, пока все объекты не попадут в один кластер

Этап 1 - объединение объектов 5 и 14.

Расстояние между объектами равно 0,439. Ни один из двух объектов не принадлежит какому-либо кластеру, о чем свидетельствуют нули в столбцах Cluster 1 и Cluster 2 (Кластер 2) колонки Stage Cluster First Appears (Этап первого появления кластера). Следующим этапом для данного кластера, судя по столбцу Next Stage (Следующий этап), является этап 3, на котором к кластеру присоединился объект 4.

Этап 13 - объединение кластеров, содержащих объекты 1 и 3.

Объект 1 был объединен с кластером, содержащим объект 2 на этапе 9, а объект 3 - с объектами 7 и 13 на этапе 10. Расстояние между объединяемыми на этом этапе кластерами равно 9,656. Образованный на этом этапе кластер появляется далее на следующем шаге.

Из таблицы шагов агломерации можно предварительно оценить число кластеров. Для этого необходимо проследить динамику увеличения расстояний по шагам кластеризации и определить шаг, на котором отмечается резкое возрастание расстояний.

Оптимальному числу классов соответствует разность между числом объектов и порядковым номером шага, на котором было обнаружено резкое возрастание расстояний.

В рассматриваемом случае это обнаруживается при переходе от шага 12 к шагу 13. Следовательно, наиболее оптимальное количество кластеров должно быть получено на шаге 12 или 13.

Оно равно численности объектов минус номер шага, т. е.

15 - 12 = 3 или 15 - 13 = 2, т. е. 3 или 2 кластера.

Дендрограмма представляет процесс кластеризации в форме древовидной структуры, она позволяет перейти к любому объекту на любом уровне и дает возможность судить о том, каково расстояние между кластерами или объектами на каждом из уровней.

Числа от 0 до 25 являются условной шкалой этих расстояний:

0 - наименьшее расстояние на первом этапе

25 - наибольшее расстояние на последнем этапе.

На дендограмме любое решение характеризуется вертикальной линией, число точек пересечения которой, с деревом соответствует количеству кластеров текущем этапе. В данном случае эту линию следует расположить на уровне 15-20: между шагами 12 и 13 кластеризации. В этом случае получается 3 кластера. Для того чтобы установить состав каждого кластера, необходимо вернуться к корням дерева и выяснить соответствующие номера объектов.

В результате выполнения кластеризации с данными файла cars.sav, появилась новая переменная , определяющая принадлежность каждого объекта к одному из трех кластеров.

Дендрограмма, полученная в результате выполнения последнего задания (кластеризация 11 переменных) показывает, что в результате кластеризации переменные группируются в три кластера, состав которых идентичен факторам, полученным для тех же данных при факторном анализе


1 Помимо Евклидова существуют и другие виды расстояний, вычисляемые по другим формулам, при необходимости обратитесь к руководству пользователя SPSS.


Похожие:

Программа spss реализует три метода кластерного анализа: 2 -этапный (Two-Step) iconУдк 621. 311 О применении кластерного метода анализа неоднородностей электроэнергетических систем
В процессе функционирования электроэнергетическая система (ээс) непрерывно подвергается малым (изменение нагрузок, коммутация элементов...
Программа spss реализует три метода кластерного анализа: 2 -этапный (Two-Step) iconПрограмма по курсу: методы анализа данных и распознавания по направлению
Основные понятия теории распознавания по прецедентам. Признаковые описания, обучающие выборки, компактность, задачи распознавания,...
Программа spss реализует три метода кластерного анализа: 2 -этапный (Two-Step) iconЛекция, прочитанная на Джойсовском семинаре "Ulysses: step by step"
Джойсовском семинаре "Ulysses: step by step" в Челябинском педагогическом университете 28. 03. 97
Программа spss реализует три метода кластерного анализа: 2 -этапный (Two-Step) iconДипломная работа. " Интеграция анализатора, использующего алгоритмы кластерного анализа, в систему обнаружения атак "
Интеграция анализатора, использующего алгоритмы кластерного анализа, в систему обнаружения атак ”
Программа spss реализует три метода кластерного анализа: 2 -этапный (Two-Step) iconПрограмма дисциплины Статистический анализ данных (spss) для направления/ специальности 080500. 62 Менеджемент (подготовки бакалавра)
В курсе "Статистический анализ данных (spss)" студенты научатся получать обобщенную информацию из "сырых" данных, искать связи между...
Программа spss реализует три метода кластерного анализа: 2 -этапный (Two-Step) iconНовая программа качественного и количественного безэталонного и эталонного рентгеноспектрального флуоресцентного анализа с использованием метода фундаментальных параметров и качественного анализа для работы в среде Windows
Лучае, когда для некоторых (не обязательно всех) элементов продукта имеются стандартные образцы возможно их использование для повышения...
Программа spss реализует три метода кластерного анализа: 2 -этапный (Two-Step) iconПрограмма по статистике Statistika. Spss прога по стат-ке для социологов
Статистика – общенаучный инструмент. Программа по статистике – Statistika. Spss – прога по стат-ке для социологов
Программа spss реализует три метода кластерного анализа: 2 -этапный (Two-Step) iconГод создания: 1913
Более быстрый танец подобного типа назывался "One step" или "Two Step" в викторианскую эру в западном обществе
Программа spss реализует три метода кластерного анализа: 2 -этапный (Two-Step) iconМаркетинговое Агентство Step by Step
Целью исследования является изучение российского кинорынка, определение его основных качественных и количественных характеристик
Программа spss реализует три метода кластерного анализа: 2 -этапный (Two-Step) iconДипломная работа студента 544 группы
Разработка кроссплатформенного средства кластерного анализа данных с использованием рандомизированных алгоритмов
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org