Курс лекций для студентов специальности Психология Часть математическая статистика Лекция 4 Проверка гипотез о законе распределения



Скачать 114.35 Kb.
Дата17.06.2013
Размер114.35 Kb.
ТипКурс лекций

Математика. Курс лекций для студентов специальности Психология



Часть 3. математическая статистика
Лекция 4

Проверка гипотез о законе распределения


  1. Задача сравнения распределений признака в выборках

  2. Сравнение эмпирического и теоретического распределений признака по критерию

  3. Сравнение двух эмпирических распределений признака по критерию


1. Задача сравнения распределений признака в выборках
Распределением признака называется закономерность встречаемости разных его значений. В данной теме будем рассматривать сравнение распределений совокупностей данных (выборок) по одному признаку.

Классификация задач, относящихся к проблеме сравнений:

1. Сравнение законов распределения признака (эмпирического распределения с теоретическим или с эмпирическим).

2. Сравнение параметров распределений (средних и/или дисперсий по зависимым и независимым выборкам).

3. Сравнение долей в совокупностях.

Критерии, устанавливающие законы распределения, называются критериями согласия.

Какой бы закон распределения признака мы не устанавливали, полной уверенности в том, что в результате получится истинный закон распределения признака генеральной совокупности, к которой принадлежит выборка, не существует. Поэтому и говорят, что на определенном уровне доверия: предполагаемый теоретический закон согласуется с выборочными данными, или законы распределения двух выборок (или более) согласуются.

Задача сопоставления закона распределения признака представляется в следующих видах.

Задача 1. Сопоставить эмпирическое распределение признака с предполагаемым теоретическим распределением (равномерным, нормальным и другими). В этом случае проверяется гипотеза об отсутствии различий между теоретическим и эмпирическим распределениями.

Эта задача возникает при анализе формы гистограммы или полигона. Если гистограмма по форме напоминают «колоколообразную» кривую Гаусса, то можно предположить, что признак имеет нормальное распределение (рисунок 5.11). В этом случае следует проверить гипотезу о том, что эмпирическое распределение признака (т.е. распределение элементов выборки по значениям изучаемого признака) подчиняется теоретическому нормальному закону.

gif" name="object5" align=bottom width=407 height=217>

Рисунок 5.11
Примером выборки с предполагаемым нормальным распределением признака могут служить школьники города N, тестируемые по уровню интеллекта; признак - количество ошибок в диктанте по русскому языку.

Заметим, что полигон (гистограмма) могут напоминать, например, и график функции плотности равномерного распределения, когда частоты значений мало отличаются друг от друга (рисунок 5.12).


Рисунок 5.12
Задача 2. Сопоставить два эмпирических распределений одного и того же признака в двух выборках. В этом случае проверяется гипотеза об отсутствии различий между эмпирическими распределениями одного и того же признака. Эта задача возникает при сравнении различий между выборками (например, экспериментальная и контрольная группы) и формулируется как задача об определении однородности выборок.

Выборки называются однородными, если они извлечены из одной и той же генеральной совокупности и, следовательно, имеют одинаковые, но неизвестные функции распределения.

2. Сравнение эмпирического и теоретического распределений признака по критерию


Непараметрические критерии, к которым принадлежит и критерий «хи-квадрат», для проверки гипотез не требуют знания закона распределения генеральной совокупности и значений параметров распределений.

Критерий (хи-квадрат) отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в распределениях: 1) эмпирическом и теоретическом; или 2) в двух эмпирических.

Критерий для сопоставления эмпирического распределения с теоретическим основан на сравнении эмпирических частот значений признака и теоретических частот (в случае справедливости предполагаемого распределения). Критерий построен так, что при полном совпадении двух распределений (эмпирического и теоретического) величина (хи-квадрат эмпирическое) равно нулю. Чем больше расхождение между сопоставляемыми распределениями, тем больше величина .

Описание действий


1. Формулируются гипотезы , и задается уровень значимости . Гипотеза : Эмпирическое распределение признака не отличается от теоретического (указать конкретный закон распределения). Гипотеза : Эмпирическое распределение признака отличается от теоретического.

2. На основании выборки объема независимых наблюдений строится эмпирическое распределение в виде дискретного (или интервального) вариационного ряда.

3. Для каждого разряда признака вычисляется теоретическая частота . Отметим, что единого способа вычисления теоретических частот нет. Если для некоторых интервалов группировки ожидаемые частоты , то соседние интервалы следует объединить, чтобы сумма ожидаемых частот была 5. При этом складываются и эмпирические частоты объединяемых интервалов.

4. Вычисляется эмпирическое значение критерия :

, (5.13)

где - количество разрядов признака (интервалов).

5. Находится критическое значение по таблице (для задаваемого уровня значимости и числа степеней свободы ). Если для задачи сравнения эмпирического распределения с теоретическим выборочные данные сгруппированы в интервалов, а предполагаемое теоретическое распределение имеет параметров, то .

6. Сделать выводы. Если , то на уровне значимости принимается гипотеза . Значит, на уровне значимости нет оснований отрицать соответствие между эмпирическим и теоретическим распределениями признака. Если , то принимается гипотеза . Значит, эмпирическое распределение признака не соответствует предполагаемому теоретическому распределению и расхождения между распределениями статистически достоверны.
Рассмотрим проверку гипотезы о согласии эмпирического распределения признака с равномерным распределением.

Пусть значения признака сгруппированы в интервалов, или признак имеет разрядов (градаций, ответов на вопросы, альтернатив и т.д.). Тогда предполагается, что все значений признака должны равномерно распределиться по разрядам, а каждая теоретическая частота принимается равной .

Пример 1. Оценивался некоторый признак в терминах «очень важный», «важный», «маловажный», «совсем не важный». Был получен ряд распределений (таблица 5.6).
Таблица 5.6


Частоты

Значения признака

Итого


Очень важный

Важный

Маловажный

Совсем не важный

Эмпирические частоты


8


12


10


6


36


Проверить гипотезу о том, что в генеральной совокупности значения признака распределены равномерно.

Решение


Нулевая гипотеза заключается в том, что отличие эмпирического распределения признака от равномерного распределения статистически незначимо. Все 36 испытуемых равномерно распределились по четырем вариантам ответа, с одинаковой возможностью могли выбрать любой из четырех вариантов ответов. Значит, все теоретические частоты равны . Запишем эти значения в нижнюю строку таблицы 5.7.
Таблица 5.7 – Эмпирические и теоретические частоты


Частоты

Значения признака


Итого

Очень важный

Важный

Маловажный

Совсем не важный



8

12

10

6

36



9

9

9

9

36


Вычислим эмпирическое значение критерия по формуле (5.13):

.

Найдем по таблице критическое значение при уровне значимости и числе степеней свободы для равномерного распределения . Так как , т.е. 2,22<7,815, то наблюдаемые значения признака согласуются с нулевой гипотезой. На уровне значимости 0,05 можно утверждать, что в генеральной совокупности значения признака распределены равномерно.

3. Сравнение двух эмпирических распределений признака по критерию


Исходные данные двух эмпирических распределений для сравнения между собой могут быть представлены различными способами. Наиболее простой способ представления данных двух эмпирических распределений – «четырехпольная таблица». Она применяется в тех случаях, когда в каждой выборке признак имеет по два значения.

Рассмотрим сравнение двух эмпирических распределений на простом примере – с использованием четырехпольной таблицы.

Пример 2. После окончания двух институтов экономического профиля трудоустроились по специальности из первого института 90 человек, а из второго 60 (обе группы молодых специалистов включали по 100 человек). Имеются ли достоверные различия по успешности трудоустройства выпускников одного вуза?

Решение

Рассмотрим нулевую гипотезу об отсутствии достоверных различий по ус­пешности трудоустройства выпускников вузов. Уровень значимости примем равным 0,05. Заполним расчетную таблицу фактических значений частот значений признака «трудоустройство выпускников вуза».
Таблица 5.8 – Фактические значения частот признака в двух выборках

Значения признака (альтернативы)

Первый вуз

Второй вуз

Итого

Трудоустроились

А 90

Б 60

А+Б=150

Не трудоустроились

В 10

Г 40

В+Г=50

Всего

А+В=100

Б+Г=100

А+Б+В+Г=200


Вычислим для каждой клетки ожидаемые (теоретические) значения частототношение произведений итогов по строкам и столбцам к общему итогу.
Таблица 5.9 - Ожидаемые значения частот признака в двух выборках

Значения признака (альтернативы)

Первый вуз

(прогноз)

Второй вуз

(прогноз)

Итого


Трудоустроились



=



=

150

Не трудоустроились



=



=

50

Итого (проверка)

100

100

200


В расчетной таблице 5.10 для вычисления вместо каждой альтернативы «Трудоустроились» и «Не трудоустроились» будет по две альтернативы – для первого и второго вузов, всего – 4.

Таблица 5.10 - Расчетная таблица для вычисления


Значения признака

(альтернативы)


Эмпирические частоты


Теоретические частоты






Трудоустрои­лись

Вуз 1

90

75

15

3

Вуз 2

60

75

-15

3

Не трудоуст­роились

Вуз 1

10

25

-15

9

Вуз 2

40

25

15

9

Всего

Итого

200

200

0




Итак, .

Для нахождения критического значения «хи-квадрат» найдем число степеней свободы по формуле , где - число альтернатив в четырехпольной таблице, - число сравниваемых выборок. В примере , , поэтому . По таблице критических значений «хи-квадрат» находим .

Строим «ось значимости».



Область Область

незначимости значимости

различий распределений различий распределений




Рисунок 5.13 – Ось значимости применения критерия

Полученное значение попало в «область значимости различий», значит, с вероятностью 0,95 можно говорить о наличии достоверных различий эмпирических распределений признака «ус­пешность трудоустройства выпускников вузов». Наблюдаемые различия между трудоустройством выпускников вузов не случайны, и вузы можно считать значимо отличающимися по успешности трудоустройства выпускников.





Похожие:

Курс лекций для студентов специальности Психология Часть математическая статистика Лекция 4 Проверка гипотез о законе распределения iconКурс лекций для студентов специальности Психология Часть математическая статистика Лекция 2
Следующий шаг – получение числовых характеристик выборки, позволяющих глубже понять особенности объекта наблюдения: среднее значение...
Курс лекций для студентов специальности Психология Часть математическая статистика Лекция 4 Проверка гипотез о законе распределения iconКурс лекций для студентов специальности Психология Часть линейная и векторная алгебра Лекция 2
Каждой квадратной матрице поставим в соответствие некоторое число, которое будем называть определителем матрицы, и укажем правило...
Курс лекций для студентов специальности Психология Часть математическая статистика Лекция 4 Проверка гипотез о законе распределения iconКурс лекций для студентов специальности Психология Часть Элементы теории множеств и математической логики Лекция 1
Понятия «множество», «элемент множества», «элемент принадлежит множеству» относятся к первичным, неопределяемым понятиям современной...
Курс лекций для студентов специальности Психология Часть математическая статистика Лекция 4 Проверка гипотез о законе распределения iconКурс лекций для студентов специальности Психология Часть основы математического анализа Лекция 2
К основным операциям (+, –,, ), которые применяются в элементарной математике, в высшей математике добавляется еще одна – операция...
Курс лекций для студентов специальности Психология Часть математическая статистика Лекция 4 Проверка гипотез о законе распределения iconКурс лекций для студентов специальности Психология Часть Элементы теории множеств и математической логики Лекция 2
Комбинаторика – раздел математики, в котором изучаются вопросы о том, сколько комбинаций, подчиненных тем или иным условиям, можно...
Курс лекций для студентов специальности Психология Часть математическая статистика Лекция 4 Проверка гипотез о законе распределения iconИ. И. Боголепов теория вероятностей и математическая статистика в технике краткий курс лекций для инженеров
Анонс книги: И. И. Боголепов. Теория вероятностей и математическая статистика к технике
Курс лекций для студентов специальности Психология Часть математическая статистика Лекция 4 Проверка гипотез о законе распределения iconЗадачи статистической проверки гипотез
Статистическая проверка гипотез является вторым после статистического оценивания параметров распределения и в то же время важнейшим...
Курс лекций для студентов специальности Психология Часть математическая статистика Лекция 4 Проверка гипотез о законе распределения iconКурс лекций по высшей геодезии раздел «теоретическая геодезия»
Курс лекций ведется на кафедре прикладной геодезии и фотограмметрии Полоцкого государственного университета для студентов специальности...
Курс лекций для студентов специальности Психология Часть математическая статистика Лекция 4 Проверка гипотез о законе распределения iconКурс лекций для студентов фен нгу (28. 03. 2004)
Название курса: Гидробиология. Курс лекций объемом 32 часа реализуется в рамках программы обучения по специальности «химик-эколог»...
Курс лекций для студентов специальности Психология Часть математическая статистика Лекция 4 Проверка гипотез о законе распределения iconКонтрольная работа по дисциплине «Теория вероятностей и математическая статистика»
«Теория вероятностей и математическая статистика» для студентов пиэф всех форм обучения экономических специальностей
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org