Лекция Графическое представление статистического распределения. Гистограмма



Скачать 120.79 Kb.
Дата26.07.2014
Размер120.79 Kb.
ТипЛекция
Лекция 3. Графическое представление статистического распределения. Гистограмма.

  1. Постановка проблемы. Гистограмма - один из инструментов интерпретации результатов медицинских исследований, контроля состояния здоровья пациентов. Благодаря графическому представлению имеющейся количественной информации, можно увидеть закономерности, трудно различимые в простой таблице с набором цифр, оценить проблемы и найти пути их решения. То есть для осмысления качественных характеристик признаков, процессов, и наглядного представления тенденции изменения наблюдаемых значений применяют графическое изображение статистического материала, т. е. строят гистограмму распределения.

Именно по виду гистограммы, по тому, на какой вид распределения плотности вероятности похожа гистограмма, подбирается теоретический закон распределения.
Наиболее часто встречающиеся виды распределений:

  1. нормальное;

  2. показательное (экспоненциальное);

  3. равномерное;

  4. Рэлеевское.

http://iglin.exponenta.ru/all/contdata/contdatafiles/normpdf.jpeg

Рис. 1. Плотность нормального распределения

По нормальному закону распределены рост, масса человека, систолическое давления, содержание холестерина в крови пациента и д.р.

http://iglin.exponenta.ru/all/contdata/contdatafiles/exppdf.jpeg

Рис. 2. Плотность показательного распределения.

По показательному закону распределён интервал между однотипными случайными событиями: вызовами медсестры пациентами, число заказов лекарственных средств аптеками, страховые случаи.

http://iglin.exponenta.ru/all/contdata/contdatafiles/unifpdf.jpeg

Рис. 3. Плотность равномерного распределения

По равномерному закона распределены ошибка округления и фаза случайных колебаний.

http://iglin.exponenta.ru/all/contdata/contdatafiles/raylpdf.jpeg

Рис. 4.
Плотность Рэлеевского распределения

Плотность Рэлеевского распределения отлична от нуля только для неотрицательных значений x. Это распределение однопараметрическое: оно зависит от одного параметра σ. По Рэлеевскому закону распределено расстояние от точки попадания в мишень до её центра.

Таким образом, необходимо внимательно посмотреть на построенную гистограмму и выбрать подходящее распределение значений случайной величины.



  1. Предыстория и суть метода. Гистогра́мма (от др.-греч. ἱστός — столб + γράμμα — черта, буква, написание) — способ графического представления табличных данных. Следовательно, термин следует интерпретировать, как некую форму записи, состоящую из 'столбиков', т.е. продолговатых, вертикально расположенных фигур. Термин 'гистограмма' был введен знаменитым статистиком Карлом Пирсоном (Karl Pearson) для обозначения "общей формы графического представления".

http://upload.wikimedia.org/wikipedia/commons/2/21/karl_pearson_2.jpg

Пирсон (Pearson) Карл (27.3.1857, Лондон,— 27.4.1936, там же), английский математик, биолог, философ-позитивист. Профессор прикладной математики и механики (с 1884), а затем евгеники (с 1911) Лондонского университета.

Гистограмма - один из вариантов столбиковой диаграммы, позволяющий зрительно оценить распределение статистических данных, группированных по частоте попадания в определенный (заранее заданный) интервал. Таким образом, гистограмма представляет собой графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала значений случайной величины.



3. План построения гистограммы:

  1. Пусть необходимо изучить распределение признака Х у объектов генеральной совокупности. Для этой цели делают репрезентативную выборку и производят n измерений значений исследуемого признака: x1, x2, ... ,.xn.

  2. Надо найти минимальное значение xmin и максимальное значение xmax измеренного параметра. Полученный диапазон разделить на конечное число интервалов, предварительно определив их число (обычно 5-20 в зависимости от числа показателей) и определить ширину интервала Δx. Часто разность xmax – xmin не делится нацело. В таком случае интервал несколько расширяется, как в сторону меньших, так и в сторону больших значений.

  3. Все данные распределить по интервалам в порядке возрастания: левая граница первого интервала должна быть меньше наименьшего из имеющихся значений. Данные обработки результатов представить в виде таблицы (таблица1).

  4. Подсчитать частоту mi значений параметра, попавших в каждый из интервалов.

  5. Вычислить плотность частот mi/Δx попадания данных в каждый из интервалов.

  6. Вычислить плотности относительных частот mi/Δx·n1.

Интервалы

значений


о,x1)

(x1,x2)

(x2,x3)

(x3,x4)



(xk-1,xk)

Частоты

m1

m2

m3

m4



mk

Плотности частот, mi/Δx



















Плотности относительных частот,

m i/Δx·n





















7). По полученным данным построить гистограмму - столбчатую диаграмму, высота столбиков которой соответствует частоте или плотности частот, или плотности относительных частот попадания данных в каждый из интервалов, основаниями столбиков служат отрезки оси абсцисс, длины которых равны длинам интервалов. В результате получают ступенчатую фигуру в виде сдвинутых друг к другу прямоугольников, площади которых пропорциональны частотам (или плотностям относительных частот).

Гистограмма частот (нормальное распределение)



гистограмма

Гистограмма плотности относительных частот (нормальное распределение)



http://gotrader.ru/wp-content/uploads/3109.gif

8). Проанализировать гистограмму:

  1. определить тип распределения данных (нормальное и т.д.);

  2. нарисовать линию по верхушкам полосок гистограммы и получить сглаживающую кривую, наилучшим образом представляющую данное статистическое распределение;

  3. осуществить анализ нормального распределения с использованием математического аппарата: найти значение генеральной средней, генеральное среднее квадратическое отклонение, выражение для нормального закона. Но не следует делать выводы, основанные на малых выборках. Чем больше объем выборки, тем больше уверенность в том, что три важных параметра гистограммы - ее центр, ширина и форма - представительны для всего исследуемого процесса или группы данных.

  4. Ответить на вопрос: "Почему распределение именно такое, и о чем это говорит?"

Примеры анализа гистограмм:

http://www.iway.ru/tqm/4/gistograma(a).gif

http://www.iway.ru/tqm/4/gistograma(b).gif

http://www.iway.ru/tqm/4/gistograma(c).gif

http://www.iway.ru/tqm/4/gistograma(d).gif

  • Симметричная (пример А). Большинство значений находятся по обе стороны от центра распределения (центральной тенденции) с отклонением, сбалансированным по обе стороны от центра.

  • С наклоном (пример Б). Большинство значений находятся слева от центральной тенденции. Такой тип распределения данных может произойти, если есть естественное препятствие в случаях сортировки данных (результаты, которые не соответствуют определенному стандарту, удаляются из набора данных).

  • Асимметричная (пример В). На таком графике имеется длинный "хвост" по одну сторону от центральной тенденции. По одну сторону имеется больше отклонений, чем по другую, указывая на то, что в течение процесса произошел сдвиг некоторых переменных значений.

  • Двухмодальная (пример Г). В двух модальном типе имеется две вершины. Это обычно происходит, когда смешиваются две различные группы данных (категория невысоких людей смешивается с категорией очень высоких людей). В действительности, мы имеем две гистограммы, объединенные вместе.

Достоинства метода:

  • Наглядность, простота освоения и применения.

  • Анализ на основании фактов, а не мнений.

  • Позволяет лучше понять вариабельность, присущую процессу, глубже взглянуть на проблему и облегчить нахождение путей ее решения.

Недостатки метода:

Интерпретация гистограммы, построенная по малым выборкам, не позволяет сделать правильные выводы.



Применение метода гистограмм в информатике:

В последние два десятилетия гистограммы использовались в нескольких областях информатики, и, прежде всего, в областях обработки изображений. Анализ гистограммы яркости стал уже привычным делом во время редактирования фотографий в графическом редакторе. Гистограмма яркости, которую для краткости обычно называют просто "гистограмма", помогает оценить общее качество фотографии на основе математической интерпретации тонального диапазона изображения в виде специальной диаграммы. Гистограмма яркости изображения - это и есть такая столбчатая диаграмма, отображающая количество пикселов2 изображения (по вертикали), имеющих заданный уровень яркости (по горизонтали). Т.е. гистограмма яркости представляет собой график, который показывает, какие оттенки присутствуют в изображении. Диапазон оттенков изображения представлен в виде последовательности вертикальных линий, расположенных слева направо от самого темного до самого светлого. Высота каждой линии показывает, сколько в изображении пикселов



картинка 2 из 84000

соответствующего оттенка. Гистограмму можно получить для каждого цветового канала в отдельности. В этом случае она показывает количество пикселов, имеющих определенное значение величины яркости для каждого цвета. Величина яркости изменяется в диапазоне от 0 до 255 с точностью до единицы, что соответствует цветовой глубине в 8 бит на каждый цветовой канал (в двоичном представлении от 00000000 – белый до 11111111 - черный). В растровом изображении каждый пиксел содержит информацию о своем цвете. Цвет представляется числами в соответствии с той или иной цветовой моделью, например, RGB (Красный,зелёный,синий –цвета, с помощью сложения которых формируется изображение на экране) и др. Так, в модели RGB каждый пиксел описывается тремя числами, соответствующими яркостям базовых цветовых составляющих, которым в свою очередь, ставится в соответствие номер цвета. Числа, которыми описывается цвет пикселов, еще называют цветовыми каналами.

Как известно, числа можно представлять в различных системах счисления. В обычной практике мы используем десятичную систему, в которой для записи чисел применяются 10 цифр (0, 1, 2, …, 9). В программировании часто используется шестнадцатеричная система счисления, в которой применяются 16 цифр ( 0, 1, 2,…, 9, A, B, C, D, E, F). Работа компьютеров основана на двоичной системе с двумя цифрами — 0 и 1. Двоичную цифру называют битом. Бит может принимать только одно из двух возможных значений.

Количество информации, которое используется для кодирования точки изображения (пиксела), называется глубиной цвета (color depth), или битовой глубиной цвета (bit depth).

Цветовая глубина определяет, как много цветов может быть представлено пикселом (какова палитра цветов). Например, если цветовая глубина равна 1 бит, то пиксел может представлять только один из двух возможных цветов, например, белый или черный. Если цветовая глубина равна 8 бит, то количество возможных цветов равно 28 = 256. При глубине цвета 24 бит на кодирование каждого цвета выделяется по 8 бит, а полное количество цветов количество цветов превышает 16 млн. Связь между битовой глубиной цвета и количеством цветов проста:

Количество цветов = 2 битовая глубина цвета



Глубина цвета и количество цветов в палитре

Глубина цвета, I(бит)

Количество цветов в палитре

(число номеров цвета),N



8

28=256

16

216=65536

24

224=16777216

Иногда под цветовой глубиной понимают максимальное количество цветов, которые можно представить. Очевидно: чем больше цветовая глубина, тем больше объем файла, содержащего описание всего изображения.

Изображения в системах RGB и оттенках серого (gray scale) обычно содержат 8 бит на один цветовой канал. Поскольку в RGB три цветовых канала, глубина цвета в этих режимах равна 8 3 = 24 бит.

Гистограмма является вспомогательной функцией для оценки качества фотографии, поэтому получаемую с ее помощью информацию нужно соотносить с изображением на дисплее цифровой камеры. Фотограф должен понимать, какие участки изображения вызывают возникновение полос на гистограмме. Слева на графике отображаются темные участки снимка, то есть тени. Справа - светлые участки. Если подъемы расположены примерно симметрично, ближе к центру гистограммы, то изображение хорошо сбалансировано. Если подъемы смещены влево или вправо относительно центра, то это является показателем того, что изображение, соответственно, слишком темное или светлое. В таком случае нужно в меню Levels редактора Photoshop переустановить конечную точку для черного или белого цвета (фото 1 и 2).


http://www.kv.by/data/digphoto/2003/2003070201.jpg

Фото 1. Подъем на гистограмме смещен влево, то есть фотография затемнена. Возможно, это связано с недодержкой при съемке.http://www.kv.by/data/digphoto/2003/2003070202.jpg




http://www.kv.by/data/digphoto/2003/2003070203.jpg

Фото 2. http://www.kv.by/data/digphoto/2003/2003070204.jpg

После смещения конечной точки гистограмма "отцентрировалась", и изображение стало реалистичнее.



Конечно, "слишком темное" или "слишком светлое" изображение не обязательно является свидетельством брака, а может быть вызвано объективными условиями композиции, объектом съемки. Например, гистограмма зимнего пейзажа объективно не может иметь подъемы, сгруппированные в центральной части (фото 3).

http://www.kv.by/data/digphoto/2003/2003070205.jpg

Фото 3. http://www.kv.by/data/digphoto/2003/2003070206.jpg
Гистограмма зимнего пейзажа по понятным причинам смещена вправо.

В некоторых случаях гистограмма может иметь всплески как в правой, так и в левой своей части, что говорит о наличии в кадре максимально темных и максимально светлых областей. Это бывает, когда фотография очень контрастна или имеет ярко выраженную игру света и тени, как видно из примера на фото 4, и ничего плохого тут, естественно, нет.

http://www.kv.by/data/digphoto/2003/2003070207.jpg

Фото 4. http://www.kv.by/data/digphoto/2003/2003070208.jpg
Фотография имеет ярко выраженную игру света и тени, что отражается в виде двух пиков на гистограмме.



1 Так как для возможности сравнения различных гистограмм необходимо исключить зависимость от объёма выборки и ширины интервала Δx.

2 Пи́ксел (англ. pixel, сокр. от англ. PICture'S ELement, элемент изображения), пи́ксель — минимальный участок изображения, для которого независимым способом можно задать цвет. Он представляет собой неделимый объект прямоугольной (обычно квадратной) формы, обладающий определенным цветом. Любое растровое компьютерное изображение состоит из пикселов, расположенных по строкам и столбцам. Если изображение увеличить, вы увидите ряды пикселов.


Похожие:

Лекция Графическое представление статистического распределения. Гистограмма iconВопрос 75 Спектр, цвет, видимый свет
Спектр (лат spectrum от лат spectare — смотреть) — множество значений физической величины, распределенных по некоторому энергетическому...
Лекция Графическое представление статистического распределения. Гистограмма iconМетодология психодиагностики и обработки экспериментальных данных
Нормативы представления результатов анализа данных в научной психологии Табулирование и наглядное представление данных. Графическое...
Лекция Графическое представление статистического распределения. Гистограмма iconЭкзаменационные вопросы (09-12. 2002) функции многих меременных, графическое представление, понятие изолиний, изоповерхностей, примеры
Функции многих меременных, графическое представление, понятие изолиний, изоповерхностей, примеры
Лекция Графическое представление статистического распределения. Гистограмма iconРазработка редактора вычислительных сценариев для распределённых сред Lazarev
Графическое представление сценария позволяет сделать наглядными связи между сервисами. Кроме того, такое представление позволяет...
Лекция Графическое представление статистического распределения. Гистограмма iconЛабораторная работа № Проверка статистической гипотезы о виде распределения
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Лекция Графическое представление статистического распределения. Гистограмма iconЭкзаменационные вопросы и задачи по курсу «Математическая статистика»
Генеральная выборочная совокупности. Группировка выборочных данных. Понятие вариационного ряда, варианты, статистический закон распределения....
Лекция Графическое представление статистического распределения. Гистограмма iconЗадачи статистической проверки гипотез
Статистическая проверка гипотез является вторым после статистического оценивания параметров распределения и в то же время важнейшим...
Лекция Графическое представление статистического распределения. Гистограмма iconВопросы к модульному контролю №1 по дисциплине «Теория фракталов»
Алгоритм, позволяющий получать графическое представление слова при помощи тертл-графики
Лекция Графическое представление статистического распределения. Гистограмма iconТест по курсу «Теория алгоритмов»
Как называется графическое представление алгоритма: 1 последовательность формул; 2 блок-схема; 3 таблица; 4 словесное описание?
Лекция Графическое представление статистического распределения. Гистограмма icon«Число Цифра 5»
Сформировать представление о числе 5, его составе, графическое, печатное и письменное обозначение числа 5, изображение его на числовом...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org