Учебное пособие для студентов всех специальностей Москва 2003 ббк 22. 17я7 удк 519. 22 (075. 8) 6Н1 к 60



страница3/10
Дата08.10.2012
Размер0.71 Mb.
ТипУчебное пособие
1   2   3   4   5   6   7   8   9   10

§ 2.2.Компонентный анализ

2.2.1Математическая модель главных компонент


Метод главных компонент состоит в разложении k-мерного случайного вектора Х = (X1X2, …, Xk)T с помощью ортогонального преобразования, когда в качестве системы линейно независимых векторов берется ортонормированная система собственных векторов, отвечающих собственным значениям ковариационной матрицы вектора Х.

Линейная модель главных компонент для центрированного вектора-столбца записывается в виде

,

где F = (F1F2, …, Fk) — центрированный и нормированный случайный вектор-столбец некоррелированных главных компонент Fj, (j = 1, 2, …, k), — (неслучайная) матрица нагрузок случайных величин Xi на компоненты Fj (i = 1, 2, …, k, j = 1, 2, …, k).

Изложим алгоритм построения вектора F и расчета матрицы А.

Пусть — ковариационная матрица вектора Х. Будучи симметричной и неотрицательно определенной, она имеет k вещественных неотрицательных собственных значений λ1λ2, …, λk. Предположим, что λ1 > λ2 > ּּּ > λk, как и бывает обычно в большинстве приложений компонентного анализа. Через V1V2, …, Vk обозначим нормированные собственные векторы-столбцы матрицы , соответствующие собственным значениям λ1λ2, …, λk; Vj = (v1jv2j, …, vkj)T. Тогда для всех j = 1, 2, …, k справедливы следующие равенства:

,

где I – единичная матрица порядка k;

Vj = λjVj; (2.2.1)

(2.2.
2)

Введем матрицу Vj = (V1V2, …, Vk). Так как с учетом соотношений (2.2.1) и (2.2.2)



то

. (2.2.3)

Пусть

; (2.2.4)

так как , то — центрированный вектор; поскольку

,

то в силу (2.2.3) компоненты вектора некоррелированы и . Поэтому искомый центрированный и нормированный вектор F равен

(2.2.5)

Обратим внимание на следующее:

  • так как след матрицы tr  = tr , то

(2.2.6)

т. е. дисперсия исходных случайных величин X1X2, …, Xk полностью исчерпывается компонентами , при этом поскольку , то каждой следующей компонентой исчерпывается меньшая доля дисперсии исходных случайных величин, чем предыдущей;

  • так как M(FTF) = I, то  AAT или

, i = 1, 2, …, k, p = 1, 2, …, k, (2.2.7)

и в частности

,

т. е. ковариационная матрица вектора X полностью воспроизводится матрицей нагрузок A;

  • или

cov (XiFj) = aij, i = 1, 2, …, k, j = 1, 2, …, k, (2.2.8)

т. е. ковариация случайной величины Xi и компоненты Fj равна нагрузке aij.

Замечание. Собственные значения и собственные векторы существенно зависят от выбора масштаба и единиц измерения случайных величин. Поэтому компонентный анализ эффективен, когда величины имеют одинаковую содержательную природу и измерены в одних и тех же единицах. К примерам таких величин можно отнести структуру бюджета времени индивидуумов или организаций (все Xi измеряются в единицах времени), структуру потребления семей, структуру затрат организаций (все Xi измеряются в денежных единицах) и т. п. При нарушении указанного условия вектор Х нормируют и центрируют, тогда — это корреляционная матрица, и из соотношений (2.2.6) ~ (2.2.8) следует:

, (2.2.9)

т. е. — это доля суммарной дисперсии случайных величин X1X2, …, Xk, объясняемая компонентой Fj;

; ; (2.2.10)

. (2.2.11)

Отметим, что использование в компонентном анализе корреляционной матрицы затрудняет проверку ряда гипотез.

Найдем матрицу нагрузок А. Из соотношения (2.2.4), используя ортогональность матрицы V, получим: , а с учетом соотношения (2.2.5):

. (2.2.12)

Отсюда

, (2.2.13)

(2.2.14)

Обычно для анализа используют k' первых главных компонент, которыми исчерпывается не менее 70 % дисперсии исходных случайных величин. Можно доказать, что с помощью компонент F1F2, …, Fk' достигается наилучший, в смысле метода наименьших квадратов, прогноз величин X1X2, …, Xk среди всех прогнозов, которые можно построить с помощью k' линейных комбинаций набора из k произвольных величин (свойство «наилучшей самовоспроизводимости»), при этом относительная ошибка прогноза составляет

.

На практике обычно  ≈ 10 ~ 25%. Для наглядной интерпретации главных компонент наиболее удобны случаи k' = 1, 2 и 3.

2.2.2Геометрическая интерпретация главных компонент




2.2.3Статистика модели главных компонент


В реальных задачах располагают лишь n наблюдениями

(xij), i = 1, 2, …, n, j = 1, 2, …, k

k-мерного случайного вектора Х = (X1X2, …, Xk)T и оценками и вектора математических ожиданий MX и ковариационной матрицы . Будем предполагать, что наблюдения центрированы, т. е. (в дальнейшем значок «~» (тильда) над будем опускать). Если вектор Х имеет нормальное распределение, наблюдения независимы, проведены в одинаковых вероятностных условиях и все k собственных значений матрицы различны, то справедливы следующие утверждения:

  • оценки и , найденные на матрице , являются оценками максимального правдоподобия соответственно для λj и Vj. Поэтому выборочные главные компоненты , j = 1, 2, …, k, где , i = 1, 2, …, n, можно интерпретировать как оценки компонент Fj ( — оценка j-й главной компоненты на i-м объекте);

  • случайные величины являются асимптотически нормальными с математическим ожиданием MYj = 0 и дисперсией . Поэтому при больших n

, (2.2.15)

где — число, при котором , а r = 1 — кратность собственного значения λj.

Если попадает в доверительный интервал для λj при i ≠ j, то возможно, что λi = λj.

Проверка гипотезы H0: λ1 = λ2 = ∙∙∙ = λk или равносильной ей гипотезы о диагональном виде ковариационной матрицы (корреляционной матрицы R) основана на том, что при достаточно большом n статистика

[n – (2k + 1 + )][–ln det || + k ln()],

где det ||  — определитель матрицы , имеет распределение [статистика (–(n – )ln ||) имеет распределение ]. Принятие гипотезы Н0 означает, что переход к главным компонентам равносилен упорядочению исходных величин в порядке убывания их дисперсий.

Предположим, что k' первых главных компонент учтены; пусть m = k – k'. Проверка гипотезы H0: λk'+1 = λ k'+2 = ∙∙∙ = λk основана на статистике

a[–ln (det ||) + ln (λ1λ2 ∙∙∙ λk') + m ln b],

где a = n – k' – (2+ 1 + ), , имеющей при большом n распределение . Если используется матрица , и k' компонентами исчерпывается большая доля суммарной дисперсии, проверка гипотезы H0 основана на аналогичной статистике с заменой на и а на n; однако в этом случае аппроксимация распределения статистики распределением менее точна, даже при бóльших n, чем при использовании матрицы .

Возможно обобщение формулы (2.2.15) на случай, когда собственное значение λj имеет кратность r > 1, т. е. λj = λj+1 = ∙∙∙ = λj+(r1): в этом случае в формуле (2.2.15) следует заменить на .

2.2.4Реализация методов компонентного анализа в пакете SPSS

2.2.5Решение практических задач с помощью метода главных компонент

2.2.5.1Простая задача с ручными вычислениями из предметной области


В табл. 2.2.1 приведены данные о продажах бытовой техники в магазинах фирмы.

Таблица 2.2.1



Холодильники

Газовые плиты

Электроплиты

Печи СВЧ

Пылесосы

Кухонные комбайны

1



















2



















3



















4



















5



















6





















2.2.5.2Компонентный анализ производственной деятельности предприятий


Проведем компонентный анализ следующих шести показателей, применяемых в машиностроении для анализа использования производственной мощности и основных производственных фондов: коэффициента использования среднегодовой мощности по фактическому выпуску (X1), коэффициента загрузки металлорежущего оборудования по фактическому выпуску (к двухсменному режиму) (X2), выпуска валовой продукции на один рубль основных промышленно-производственных фондов (X3), выпуска валовой продукции на один металлорежущий станок (X4), выпуска валовой продукции на один квадратный метр производственной площади основных цехов (X5), коэффициента сменности металлообрабатывающего оборудования (X6).

Матрица выборочных коэффициентов парной корреляции этих показателей, вычисленная по данным 153 предприятий, представлена в табл. 2.2.1:

Таблица 2.2.1




Х1

Х2

Х3

Х4

Х5

Х6

X1

1,0000

0,4166

0,2206

0,1913

0,2573

0,3208

X2

0,4166

1,0000

0,0206

–0,0181

0,1994

0,3547

X3

0,2206

0,0206

1,0000

0,2131

0,3076

0,0298

X4

0,1913

–0,0181

0,2131

1,0000

0,0724

–0,0423

X5

0,2573

0,1994

0,3076

0,0724

1,0000

0,1971

X6

0,3208

0,3547

0,0298

-0,0423

0,1971

1,0000

Собственные значения этой матрицы , , , , , . Нормированный собственный вектор, соответствующий собственному значению , имеет вид = (0,5426; 0,4657; 0,3104; 0,1745; 0,4251; 0,4255)T. Оценки нагрузок показателей на компоненты и оценки долей вкладов компонент в суммарную дисперсию показателей приведены в табл. 2.2.2:

Таблица 2.2.2

Показатели

Оценки нагрузок на компоненты



F1

F2

F3

F4

F5

F6

X1

0,7671

–0,0197

–0,2754

–0,2233

–0,1387

0,5160

1

X2

0,6584

–0,4401

–0,1610

–0,3391

0,0752

0,4267

1

X3

0,4388

0,6459

0,3177

–0,0588

–0,4996

0,1903

1

X4

0,2467

0,6399

–0,6331

0,2110

0,2476

0,1516

1

X5

0,6010

0,2266

0,5524

0,0442

0,5249

–0,0690

1

X6

0,6016

–0,4531

0,0033

0,6336

–0,1670

0,0689

1

Оценка доли вклада Fj

в общую дисперсию, %



33,31

21,29

15,14

11,01

10,65

8,60




Зная оценки нагрузок, можно выразить каждый показатель через компоненты. Так, например, X1 = 0,7671F1 – 0,0197F2 – 0,2754F3 – 0,2233F4 – 0,1387F5 + +0,5160F16.

И наоборот, можно найти выражения компонент через показатели. Так,

.

Так как нагрузки рассчитывались по корреляционной матрице, то в обоих выражениях все Xi и Fj центрированы и нормированы.

Из табл. 2.2.2 видно, что на первые две компоненты проходится 54,6 % общей дисперсии показателей.

Дадим интерпретацию полученных результатов в рамках компонент F1 и F2, при этом будем иметь в виду, что нагрузка — это выборочный коэффициент корреляции между Xi и Fj:

  • корреляция первой компоненты со всеми показателями положительны; судя по знакам нагрузок показателей на компоненту F2, они делятся на две группы: с одной стороны показатели X3, X4, X5, находящиеся в прямой зависимости с F2, с другой — показатели X6, X2, X1;

  • компонента F1 определяется показателем Х1 (коэффициент корреляции между ними максимальный); компонента F2 — показателем X3;

  • наибольший вклад компоненты F1 и F2 вносят в дисперсию показателей Х2 (этот вклад равен 0,65842 + 0,44012 = 0,6271). Следовательно Х2 — коэффициент загрузки металлорежущего оборудования — является в рамках компонент F1 и F2 наиболее информативным среди всех шести анализируемых показателей. Второе и третье место по информативности занимают Х3 — выпуск продукции на один рубль основных фондов и Х1 — коэффициент использования производственной мощности.

В приведенном примере использовалась корреляционная матрица. Это нельзя считать узаконенной процедурой, так как использование корреляционной матрицы создает трудности при проверке сформулированных гипотез.

2.2.5.3Компонентный анализ мировой демографической статистики




2.2.5.4Компонентный анализ работы специалистов по окончании вуза




2.2.5.5Компонентный анализ социологических опросов




2.2.5.6Компонентный анализ финансовых показателей



1   2   3   4   5   6   7   8   9   10

Похожие:

Учебное пособие для студентов всех специальностей Москва 2003 ббк 22. 17я7 удк 519. 22 (075. 8) 6Н1 к 60 iconКонспект лекций москва 2004 удк 519. 713(075)+519. 76(075) ббк 22. 18я7 С32
Учебное пособие предназначено для студентов факультета Кибернетики, изучающих на пятом семестре математическую лингвистику и основы...
Учебное пособие для студентов всех специальностей Москва 2003 ббк 22. 17я7 удк 519. 22 (075. 8) 6Н1 к 60 iconУчебное пособие для студентов всех специальностей Саратов 2009 удк 519. 17 Ббк 22. 174 С 32 Рецензенты
С32 Ведение в теорию графов: учеб пособие. Саратов: Сарат гос техн ун-т, 2009. 36с
Учебное пособие для студентов всех специальностей Москва 2003 ббк 22. 17я7 удк 519. 22 (075. 8) 6Н1 к 60 iconУчебное пособие Москва 2002 ббк 63. 3 /2/ я 73 Рецензент: Иванова А. А
Учебное пособие предназначено для студентов I курса всех направлений и всех специальностей дневной формы обучения
Учебное пособие для студентов всех специальностей Москва 2003 ббк 22. 17я7 удк 519. 22 (075. 8) 6Н1 к 60 iconУчебное пособие Москва, 2009 удк 811. 111 Ббк 81. 2Англ к 893 к 893
Учебное пособие предназначено для студентов продвинутого этапа обучения гуманитарных специальностей. Пособие базируется на оригинальном...
Учебное пособие для студентов всех специальностей Москва 2003 ббк 22. 17я7 удк 519. 22 (075. 8) 6Н1 к 60 iconУчебное пособие для студентов гумманитарных специальностей Павлодар удк 811. 124 (075. 8) Ббк 81. 2 Латиня 75 И87
Г. Х демисинова кандидат филологических наук, доцент, зав кафедрой теории и практики перевода пгу
Учебное пособие для студентов всех специальностей Москва 2003 ббк 22. 17я7 удк 519. 22 (075. 8) 6Н1 к 60 iconУчебное пособие Москва 2006 удк 341. 645: 347. 922(075) ббк 67. 412. 2 О 23

Учебное пособие для студентов всех специальностей Москва 2003 ббк 22. 17я7 удк 519. 22 (075. 8) 6Н1 к 60 iconУчебное пособие для студентов всех специальностей Саратов 2011 удк 510. 6 Ббк 22. 12 С 32 Рецензенты
С 32 Элементарный курс математической логики. Логические функции: учеб пособие. Саратов: Сарат гос техн ун-т, 2011. 32 с
Учебное пособие для студентов всех специальностей Москва 2003 ббк 22. 17я7 удк 519. 22 (075. 8) 6Н1 к 60 iconУчебное пособие Оренбург, 2007 удк 811. 131. 1(075) ббк 81. 2Фр-923 а 23 Рецензенты
Данное учебное пособие предназначено для студентов, занимающихся изучением древних языков и античной культуры и имеет целью помочь...
Учебное пособие для студентов всех специальностей Москва 2003 ббк 22. 17я7 удк 519. 22 (075. 8) 6Н1 к 60 iconУчебное пособие для самостоятельной работы обучающихся Сызрань 2007 Составители: П. П. Гавриш, Ю. А. Мелешкин удк 621. 375 Ббк 32. 85
Учебное пособие предназначено для обучающихся всех специальностей, изучающих теорию электрических цепей
Учебное пособие для студентов всех специальностей Москва 2003 ббк 22. 17я7 удк 519. 22 (075. 8) 6Н1 к 60 iconУчебное пособие для студентов всех специальностей ч луганск 2003 удк 01 Рябова С. В. Основы информационного поиска: Учеб пособие для студ всех специальностей. Ч /С. В. Рябова. Луганск: Изд-во вну им. В. Даля, 2003. 44с
Рябова С. В. Основы информационного поиска: Учеб пособие для студ всех специальностей. Ч /С. В. Рябова.– Луганск: Изд-во вну им....
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org