с помощью гистограммы можно определить графически

Графическое изображение рядов распределения: полигон, гистограмма. Показатели центра распределения, колеблемости признака. Формы распределения.

Поможем написать любую работу на аналогичную тему

Графики являются наглядной формой отображения рядов распределения. Для изображения рядов применяются линейные графики и плоскостные диаграммы, построенные в прямоугольной системе координат.

Для графического представления атрибутивных рядов распределения используются различные диаграммы: столбиковые, линейные, круговые, фигурные, секторные и т. д.

Для дискретных вариационных рядов графиком является полигон распределения.

Полигоном распределения называется ломаная линия, соединяющая точки с координатами с помощью гистограммы можно определить графическиили с помощью гистограммы можно определить графическигде с помощью гистограммы можно определить графически— дискретное значение признака, с помощью гистограммы можно определить графически— частота, с помощью гистограммы можно определить графически— частость.

График строится в принятом масштабе. Вид полигона распределения приведен на рис. 5.1.

с помощью гистограммы можно определить графическис помощью гистограммы можно определить графическис помощью гистограммы можно определить графически

При построении графиков рядов распределения большое значение имеет соотношение масштабов по оси абсцисс и оси ординат. В этом случае и необходимо руководствоваться «правилом золотого сечения», в соответствии с которым высота графика должна быть примерно в два раза меньше его основания.

При проведении эмпирического исследования ряда распределения рассчитываются и анализируются следующие группы показателей:

• показатели положения центра распределения;

• показатели степени его однородности;

• показатели формы распределения.

Показатели положения центра распределения. К ним относятся степенная средняя в виде средней арифметической и структурные средние – мода и медиана.

Средняя арфметическая для дискретного ряда распределения рассчитывается по формуле:

с помощью гистограммы можно определить графически

В отличие от средней арифметической, рассчитываемой на основе всех вариант, мода и медиана характеризует значение признака у статистической единице, занимающей определенное положение в вариационном ряду.

Медиана (Me) значение признака у статистической единицы, стоящей в середине ранжированного ряда и делящей совокупность на две равные по численности части.

Медиану используют как наиболее надежный показатель типичного значения неоднородной совокупности, так как она нечувствительна к крайним значениям признака, которые могут значительно отличаться от основного массива его значений. Кроме этого, медиана находит практическое применение вследствие особого математического свойства: с помощью гистограммы можно определить графическиРассмотрим определение моды и медианы на следующем примере: имеется ряд распределения рабочих участка по уровню квалификации.

Данные приведены в таблице 5.2.

с помощью гистограммы можно определить графически

Мода выбирается по максимальному значению частоты: при nmax = 14 Mo=4, т.е. чаще всего встречается 4-ый разряд. Для нахождения медианы Me определяются центральные единицы с помощью гистограммы можно определить графическиЭто 25 и 26-ая единицы. По накопленным частотам определяется группа, в которую попадают эти единицы. Это 4-ая группа, в которой значение признака равно 4. Таким образом, Me = 4, это означает, что у половины рабочих разряд ниже 4-го, а у другой – выше четвертого. В интервальном ряду значения Mo и Me вычисляются более сложным путем.

Мода определяется следующим образом:

• По максимальному значению частоты определяется интервал, в котором находится значение моды. Он называется модальным.

• Внутри модального интервала значение моды вычисляется по формуле:

с помощью гистограммы можно определить графически

Для расчета медианы в интервальных рядах используется следующий подход:

• По накопленным частотам находится медианный интервал. Медианным называется интервал, содержащий центральную единицу.

• Внутри медианного интервала значение Me определяется по формуле:

с помощью гистограммы можно определить графически

В неравноинтервальных рядах при вычислении Mo используется другая частотная характеристика – абсолютная плотность распределения:

с помощью гистограммы можно определить графически

с помощью гистограммы можно определить графически

Расчет моды и медианы для интервального ряда распределения рассмотрим на примере ряда распределения рабочих по стажу, приведенного в таблице 5.3.

с помощью гистограммы можно определить графически

• Максимальная частота n max = 13, она соответствует четвертой группе, следовательно, модальным является интервал с границами 12 – 16 лет.

• Моду рассчитаем по формуле:

с помощью гистограммы можно определить графически

Чаще всего встречаются рабочие со стажем работы около 13 лет. Мода не находится в середине модального интервала, она смещена к его нижней границе, связано это со структурой данного ряда распределения (частота предмодального интервала значительно больше частоты постмодального интервала).

• По графе накопленных частот определяется медианный интервал. Он содержит 25 и 26-у статистические единицы, которые находятся в разных группах – в 3-ей и 4-ой. Для нахождения Me можно использовать любую из них. Расчет проведем по 3-ей группе:

с помощью гистограммы можно определить графически

Такое же значение Me можно получить при её расчете по 4-ой группе:

с помощью гистограммы можно определить графически

Для нахождения моды в интервальном ряду правую вершину модального прямоугольника нужно соединить с правым верхним углом предыдущего прямоугольника, а левую вершину – с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых и будет модой распределения.

Для определение медианы высоту наибольшей ординаты кумуляты, соответствующей общей численности совокупности, делят пополам. Через полученную точку проводят прямую, параллельную оси абсцисс, до пересечения ее с кумулятой. Абсцисса точки пересечения является медианой.

Кроме Mo и Me в вариантных рядах могут быть определены и другие структурные характеристики – квантили. Квантили предназначены для более глубокого изучения структуры ряда распределения. Квантиль – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Различают следующие виды квантилей:

квартили с помощью гистограммы можно определить графически– значения признака, делящие упорядоченную совокупность на 4 равные части;

децили с помощью гистограммы можно определить графически– значения признака, делящие совокупность на 10 равных частей;

с помощью гистограммы можно определить графически

Рассчитаем квартили для ряда распределения рабочих участка по стажу работы:

с помощью гистограммы можно определить графически

Следовательно, у четверти рабочих стаж менее 7 лет и у четверти – более 16 лет. Таким образом, для характеристики положения центра ряда распределения можно использовать 3 показателя: среднее значение признака, мода, медиана.

При выборе вида и формы конкретного показателя центра распределения необходимо исходить из следующих рекомендаций:

• для устойчивых социально-экономических процессов в качестве показателя центра используют среднюю арифметическую. Такие процессы характеризуются симметричными распределениями, в которых

с помощью гистограммы можно определить графически

• для неустойчивых процессов положение центра распределения характеризуется с помощью Mo или Me. Для асимметричных процессов предпочтительной характеристикой центра распределения является медиана, поскольку занимает положение между средней арифметической и модой.

Вторая важнейшая задача при определении общего характера распределения – это оценка степени его однородности. Однородность статистических совокупностей характеризуется величиной вариации (рассеяния) признака, т.е. несовпадением его значений у разных статистических единиц. Для измерения вариации в статистике используются абсолютные и относительные показатели. Выяснение общего характера распределения предполагает не только оценку степени его однородности, но и исследование формы распределения, т.е. оценку симметричности и эксцесса.

Из математической статистики известно, что при увеличении объема статистической совокупности с помощью гистограммы можно определить графическии одновременного уменьшении интервала группировки с помощью гистограммы можно определить графическиполигон либо гистограмма распределения все более и более приближается к некоторой плавной кривой, являющейся для указанных графиков пределом. Эта кривая называется эмпирической кривой распределения и представляет собой графическое изображение в виде непрерывной линии изменения частот, функционально связанного с изменением вариант.

В статистике различают следующие виды кривых распределения:

одновершинные кривые;многовершинные кривые.

Однородные совокупности описываются одновершинными распределениями. Многовершинность распределения свидетельствует о неоднородности изучаемой совокупности или о некачественном выполнении группировки.

Одновершинные кривые распределения делятся на симметричные, умеренно асимметричные и крайне асимметричные.

Распределение называется симметричным, если частоты любых 2-х вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой. В таких распределениях с помощью гистограммы можно определить графически

Для характеристики асимметрии используют коэффициенты асимметрии.

Наиболее часто используются следующие из них:

Коэффициент асимметрии Пирсонас помощью гистограммы можно определить графически

с помощью гистограммы можно определить графическис помощью гистограммы можно определить графически

Рис. 5.4.Правосторонняя асимметрия Рис. 5.5. Левосторонняя асимметрия

Чем ближе по модулю As к 1, тем асимметрия существеннее:

с помощью гистограммы можно определить графически

Коэффициент асимметрии Пирсона характеризует асимметрию только в центральной части распределения, поэтому более распространенным и более точным является коэффициент асимметрии, рассчитанный на основе центрального момента 3-его порядка:

с помощью гистограммы можно определить графически

Центральным моментом в статистике называется среднее отклонение индивидуальных значений признака от его среднеарифметической величины.

Центральный момент k-ого порядка рассчитывается как:

с помощью гистограммы можно определить графически

Соответственно формулы для определения центрального момента третьего порядка имеют следующий вид:

с помощью гистограммы можно определить графически

Для оценки существенности рассчитанного вторым способом коэффициента асимметрии определяется его средняя квадратическая ошибка:

с помощью гистограммы можно определить графически

Для одновершинных распределений рассчитывается еще один показатель оценки его формы – эксцесс. Эксцесс является показателем островершинности распределения. Он рассчитывается для симметричных распределений на основе центрального момента 4-ого порядка с помощью гистограммы можно определить графически

с помощью гистограммы можно определить графически

с помощью гистограммы можно определить графически

При симметричных распределениях Ех=0. если Ех>0, то распределение относится к островершинным, если Ех

Источник

С помощью гистограммы можно определить графически

с помощью гистограммы можно определить графически

Гистограмма – это один из тех немногих способов графического представления данных, доступность и легкость восприятия которого не вызывает сомнения. Она прекрасно подходит для описания больших массивов данных, равно как и для характеристики небольшого числового ряда.

Гистограммы без преувеличения являются одним из наиболее важных инструментов анализа данных в проектах шести сигм. Представление результатов наблюдений с их помощью позволяет исследователю оценить ряд статистических показателей, сделать выводы о функции распределения и определить возможные отклонения, а также сравнить два набора данных (в частности, результаты до и после произведенных действий или внедрения проекта). Во всем этом и множестве других полезных свойствах гистограмм попытаемся разобраться в этой статье.

Информации собрано немало, поэтому для удобства навигации вся статья поделена на разделы. Если вы ищете что-то конкретное, то можно перейти непосредственно к интересующей части по ссылке. Ну а если такой информации не нашлось, обязательно оставьте отзыв в комментариях под публикацией.

Содержание:

Что такое гистограмма?

Гистограммой называют двухмерный график, по горизонтальной оси которого откладываются переменные или числовые интервалы, а по вертикальной – частота появления переменной (в заданном интервале).

с помощью гистограммы можно определить графически

Чаще всего гистограмма состоит из прямоугольников с шириной, равной величине интервала, и площадью, пропорциональной соответствующей частоте возникновения переменной. Доля всех значений в определенном интервале гистограммы равна его площади (вся площадь гистограммы принимается равной единице, или 100%). Площадь интервала, соответственно, определяет вероятность того, что следующее наблюдение попадет в заданный диапазон результатов. Таким образом, самый высокий столбик гистограммы отвечает интервалу наиболее вероятных результатов.

Другими словами, площадь прямоугольника соответствует количеству значений, которые попадают в определенный интервал: чем больше значений, тем больше площадь – при равных значениях интервалов больший столбик соответствует большему количеству значений.

Отличие от других типов диаграмм и графиков

Забегая наперед, скажу, что гистограмма может принимать самые причудливые формы. Да и для построения этого графика могут применять не только прямоугольники – столбцы, но и кривые, точки, линии… Тем не менее, гистограмма – это также довольно специфический график, и путать его с другими типами диаграммами весьма нерационально.

Чаще всего гистограмму путают со следующими графиками:

Рассмотрим все по порядку.

Отличие гистограммы от столбчатой и/или линейчатой диаграммы

Гистограмма состоит из столбцов, поэтому неудивительно, что ее легко спутать с другой диаграммой, также состоящей из столбцов – столбчатой. Или линейчатой, если говорить о линейках/полосках вместо столбцов. Однако столбчатая и линейчатая диаграммы зачастую отражают количество наблюдений в атрибутивных (или дискретных) категориях, тогда, как у гистограммы по оси Х – непрерывные данные 1 :

с помощью гистограммы можно определить графически

Если диаграммы выше развернуть на 90°, то общие и отличные черты останутся без изменений:

с помощью гистограммы можно определить графически

Отдельным пунктом следует выделить диаграмму временного ряда, на которой отложены столбцы вместо точек или линий. У этой диаграммы, как и у гистограммы, по оси X отложены непрерывные данные – дата и/или время. Однако в отличие от гистограммы диаграмма временного ряда показывает наблюдения, упорядоченные во времени, а не распределение значений.

Давайте покажу на примере: сейчас многие носят смарт-часы, которые умеют считать шаги. Допустим, вот так может выглядеть диаграмма временного ряда, если ее сделать столбчатой:

с помощью гистограммы можно определить графически

По оси X у нас время в часах, по оси Y – количество шагов в час. Мы видим на диаграмме несколько часов, соответствующих отдыху. В эти часы количество шагов равно 0. Также мы видим несколько часов с большим количеством шагов. К примеру, в период с 14:00 до 16:00 зафиксировано более 1000 шагов в час. Глядя на диаграмму, мы можем сделать вывод о наиболее интенсивных периодах дня и времени отдыха.

Теперь давайте возьмем те же данные и построим гистограмму:

с помощью гистограммы можно определить графически

Это совсем другой график, не правда ли? Из него мы не сможем сделать вывод о том, когда в сутках у нас более активный период, а когда менее. Но мы можем наблюдать некое подобие экспоненциального распределения и утверждать только то, что в сутках мы чаще спим, чем ходим по 1600 шагов в час.

Больше о диаграммах временных рядов вы можете узнать из публикации Анализ временных рядов (Time Series Analysis).

Отличие гистограммы от точечной диаграммы (Dotplot)

И гистограммы, и точечные диаграммы отражают распределение переменной – с тем лишь отличием, что гистограммы чаще всего делают это с помощью столбцов, а точечные диаграммы – (только не удивляйтесь) с помощью точек.

Точечные диаграммы дают нам немного больше представления об индивидуальных наблюдениях, так как отражают каждое из них. Гистограммы, в отличие от них, объединяют наблюдения, которые попадают в один интервал, под одним столбцом. Это преимущество, однако, теряется с увеличением количества наблюдений, так как с увеличением количества единичных наблюдений близкие значения также группируют в точки.

Еще с помощью точечных диаграмм легче заметить “гранулы” – одинаковые значения:

с помощью гистограммы можно определить графически

Но чтобы добиться такого же от гистограммы, нужно либо поэкспериментировать с количеством интервалов, либо чтобы “гранулы” наблюдений находились действительно далеко друг от друга:

с помощью гистограммы можно определить графически

Больше о точечной диаграмме вы можете узнать из публикации DotPlot в деталях.

Отличие гистограммы от диаграммы “лист и стебель” (Stem-and-Leaf)

Диаграмма “лист и стебель” (Stem-and-Leaf) – это такой себе предшественник гистограммы. Этому графику посвящен отдельный пост на нашем сайте – Что за странный график из листьев и стеблей?, – поэтому вдаваться в детали и описывать его мы не будем. Вместо этого еще раз подчеркнем общие и различные свойства.

Диаграммы внешне выглядят по-разному, но отражают практически ту же информацию. “Лист и стебель” вполне подойдет для небольшого массива данных, и когда у вас нет под рукой программного обеспечения для построения гистограммы. Вот срочно вам понадобилось на производстве понять распределение наблюдений, а в кармане лишь карандаш и салфетка – рисуйте Stem-and-Leaf.

Гистограмма лучше справится с большим массивом данных и не потребует от вас округления наблюдений, так как недостаток низкого разрешения оставила своему предшественнику. Поэтому если есть возможность построить гистограмму, то выбор очевиден. Кроме того, гистограмма явно нагляднее, чем “лист и стебель”. Да что тут говорить, вы и сами все видите:

с помощью гистограммы можно определить графически

Отличие гистограммы от диаграмм распределения вероятностей (Probability Distribution Plot)

Оба графика – и гистограмма, и диаграмма распределения вероятностей – отражают распределение, только в первом случае это – распределение реальных наблюдений, а во втором – вероятностей, теоретической величины. Как следствие, гистограммы чаще всего покрыты ступенчатыми выступами, соответствующими некоему ограниченному количеству информации о распределении переменной, которое мы обладаем. Диаграмма распределения вероятностей чаще всего отображает плавную линию, соответствующую бесконечному количеству наблюдений:

с помощью гистограммы можно определить графически

Есть еще масса мелких отличий – как то: частота наблюдений по оси Y у гистограмм или плотность у диаграмм распределения вероятностей, – но они все являются лишь следствием вышеуказанных особенностей обоих графиков. Кроме того, диаграмма распределения вероятностей может применяться для решения совершенно других задач, нежели гистограмма. Подробнее в статье Диаграмма распределения вероятностей (Probability Distribution Plot).

Отличие гистограммы от диаграммы Парето (Pareto Chart)

Мне не доводилось сталкиваться со случаями, когда гистограмму не могли отличить от диаграммы Парето, но я довольно часто слышу, что диаграмма Парето состоит из гистограммы и некоторых дополнительных элементов. Это не верно. На диаграмме Парето столбцами отражены количества наблюдений в дискретных категориях, при этом колонки ранжированы по убыванию. Ее можно назвать столбчатой диаграммой, но никак не гистограммой.

Диаграмме Парето посвящена не одна публикация на нашем сайте. Попробуйте поиск по соответствующему тегу, чтобы узнать больше.

Если вы сталкивались с заблуждениями относительно гистограммы и других типов диаграмм, которые я не описал выше, буду благодарен за дополнение к статье.

Как построить гистограмму вручную?

Несмотря на то, что гистограммы легче всего построить, используя программное обеспечение, попробуем сделать это своими собственными силами. Возьмем ряд наблюдений:

3, 5, 11, 12, 19, 22, 23, 25, 27, 29, 35, 36, 37, 45, 49

Сама по себе эта строчка несёт мало информации, но если поделить ее на удобные интервалы, то легко можно сгруппировать все данные и представить в виде следующей таблицы:

с помощью гистограммы можно определить графически

Гистограмма, построенная на данных таблицы, будет выглядеть следующим образом:

с помощью гистограммы можно определить графически

По оси Y в данном случае отложено количество наблюдений, попадающих в соответствующий диапазон на оси X.

Выбор интервалов (Binning)

Насколько удобным можно назвать выбранный выше интервал? По каким критериям определить, правильно ли он подобран? И как выбор интервала может повлиять на интерпретацию гистограммы? Все это рассмотрим ниже.

Предположим, вместо пяти отрезков по 10 единиц мы поделим весь диапазон на десять отрезков по 5 – интервалы станут в два раза короче. В таком случае гистограмма примет следующий вид:

с помощью гистограммы можно определить графически

…или всего на 2 интервала – от 0 до 25 и от 25 до 50:

с помощью гистограммы можно определить графически

Становится понятно, что один и тот же набор данных может выглядеть совсем по-разному, будучи представленным в виде гистограммы. Определение величины интервала (длинны отрезка по оси X) играет ключевую роль как для визуализации данных, так и для корректности отображаемой информации. При этом подбор диапазонов может не только выявить скрытую информацию о наблюдаемой величине (характеристике процесса), но и сыграть злую шутку, скрыв важную информацию или натолкнув на ложное предположение.

Пример ниже отчетливо иллюстрирует, как распределение наблюдаемой величины, содержащее три моды – пика, – может быть “удачно” замаскировано изменением величины интервалов:

с помощью гистограммы можно определить графически

Как же выбрать верный интервал?

К сожалению, для выбора интервалов нет единого верного подхода. Вместо этого есть несколько рекомендаций. К примеру, одна из наиболее общих рекомендаций советует нам разделить весь диапазон наблюдений на 5-30 интервалов. Согласитесь, смысл в этом есть, однако мы уже видели, к чему приводит изменение количества интервалов, а подбирать вручную одну из 25 возможностей – не самая легкая задача. Тем более, что для большого количества данных может понадобиться и больше интервалов.

Еще одна рекомендация говорит, что мы должны поделить весь диапазон так, чтобы в каждый интервал попадало не менее 5-10 наблюдений. Опять же, что делать, когда данных много? И что делать, если в данных есть прореха: например, в один из интервалов не попадет ни одно значение, хотя в интервалах по соседству их будет предостаточно? Разумеется, и в этом случае придется перебрать несколько вариантов, прежде чем мы найдем верный.

Существуют также различные формулы, которые через степени, корни и логарифмы помогут вам найти то самое правильное количество интервалов. Какая формула дает верный результат? При каком расчете от вас не ускользнут нужные детали на графике? Или в каждом случае перебирать все варианты?

Рекомендаций и вариантов расчета гораздо больше, чем нам хотелось бы потратить времени на построение одного графика. Поэтому, к сожалению, вынужден констатировать тот факт, что на практике все либо полагаются на программное обеспечение, либо на собственную “чуйку”, перебирая несколько вариантов вручную и обосновывая это разумными соображениями.

В первом случае, при использовании специализированного ПО, есть хотя бы надежда, что в нем заложен некий алгоритм выбора оптимального количества интервалов. Во втором – при ручном подборе количества интервалов – я не стану утверждать, что опыт не может подсказать, как подобрать верное количество интервалов. Лишь замечу, что от вас все еще может что-то ускользнуть. Как минимум ваше время. Но если вы все же решили заняться подбором количества интервалов вручную и посмотреть, как от этого меняется внешний вид гистограммы, ниже я расскажу вам, как это сделать быстрее всего.

На мой взгляд, первый способ более прагматичен. Строить графики с помощью ПО быстрее и комфортнее, чем в ручном режиме. Коррекция со стороны исследователя иногда необходима, но не обязательна. Нужно позволить программе делать свою работу, а исследователю свою: вместо того, чтобы корпеть над одним графиком, не забывайте:

с помощью гистограммы можно определить графически

Как построить гистограмму в пакете “101 инструмент вашего проекта шести сигм”?

Для построения гистограмм в пакете “101 инструмент вашего проекта шести сигм” откройте папку Measure и выберите инструмент №33 – Histogram. Вам потребуется внести все наблюдения в колонку “B”, и как только это будет сделано, ваша гистограмма готова:

с помощью гистограммы можно определить графически

Также обратите внимание на опцию выбора количества интервалов непосредственно над диаграммой. Помните, выше я обещал показать, как сделать ручной подбор наиболее быстрым? Так вот это и есть тот способ. Просто меняйте значение в желтой ячейке от 5 до 30 и следите за тем, как меняется ваша гистограмма.

Как построить гистограмму в Minitab?

Большинство пакетов статистической обработки данных, и Minitab тому не исключение, содержат встроенную функцию и алгоритм построения графиков. С их помощью вся процедура превращения числового ряда в гистограмму сводится к нескольким кликам мышью. С другой стороны, упрощение процесса создания диаграмм – не главное достоинство специализированной программы. Что еще может предложить нам программная среда? Рассмотрим ниже.

Для того, чтобы построить гистограмму, программе необходимы данные – результаты наблюдений, желательно выстроенные в столбик с заголовком-названием. В противном случае построенный график будет иметь название, например, “Hystogram of С1” (где С1 – столбик, в котором размещены данные). Согласитесь, не очень-то информативно. К тому же, если построение гистограммы является частью проекта, то с его расширением разобраться, какая именно гистограмма представляет нужные нам результаты, будет всё труднее.

Как внести данные на рабочий лист программы, читайте в заметке “Заносим” данные: 4 способа. В этой публикации особенности внесения данных упущены – будем считать, что данные уже заданы, и перейдем непосредственно к процессу построения гистограммы.

Чтобы построить гистограмму, в меню Graph выберите пункт Histogram. Эта команда откроет окно, которое предложит нам выбрать одну из четырех возможностей:

Выглядит следующим образом:

с помощью гистограммы можно определить графически

Выделенная по умолчанию иконка – Simple или обычная гистограмма – позволит построить простейшую гистограмму. Нажимаем OK, чтобы перейти в следующее меню:

с помощью гистограммы можно определить графически

В поле Graph variables можно указать один или несколько столбцов с данными сразу. Для этого нужно дважды кликнуть на нужный столбик в поле слева или выбрать его одним кликом мыши и нажать Select. Как только название столбика появится в поле Graph variables, мы знаем, что нужные данные были заданы. Теперь, чтобы построить гистограмму, достаточно нажать OK:

с помощью гистограммы можно определить графически

При выборе гистограммы с наложением кривой распределения вероятностей – With Fit – получим гистограмму, на которую будет наложена (по умолчанию) кривая нормального распределения. Если нам известно, что закон распределения отличается от нормального, то в окне настройки гистограммы можем задать функцию, с помощью которой следует аппроксимировать результаты наблюдений. Для этого в окне настроек выберите опцию Data View:

с помощью гистограммы можно определить графически

В закладке Distribution следующего меню установите флажок напротив Fit Distribution и выберите необходимый вид распределения в появившемся списке:

с помощью гистограммы можно определить графически

Программа автоматически аппроксимирует данные (в рассмотренном примере выбрано экспоненциальное распределение):

с помощью гистограммы можно определить графически

Мы также можем наложить на гистограмму сглаживающую кривую. Для этого выберите опцию Data View еще раз и в появившемся окне перейдите на закладку Smoother. Установите флажок напротив Lowess – это название алгоритма, который использует программа:

с помощью гистограммы можно определить графически

Параметры сглаживания – степень и количество шагов – оставляем по умолчанию: 0.5 и 2 соответственно. Полученная гистограмма выглядит следующим образом:

с помощью гистограммы можно определить графически

Варьируя этими значениями (степень сглаживания в пределах от 0 до 1), можно менять плавность, мягкость перепадов, приближённость к данным сглаживающей кривой, в зависимости от наших данных и цели анализа.

На вкладке Data Display окна Histogram: Data View можно выбрать различные, относительно нестандартные, способы представления данных на гистограмме:

с помощью гистограммы можно определить графически

Если вместо значения по умолчанию – Bars” (колонки) – установить флажок напротив Symbols (символы), частота появления наблюдений в каждом интервале будет представлена виде точек:

с помощью гистограммы можно определить графически

Опция Project lines (линии проекции) – позволяет представить данные в виде штрихов с длиной, соответствующей частоте появления значения (на оси X):

с помощью гистограммы можно определить графически

Опция Area (площадь) объединяет все прямоугольники данных, образуя единую площадь под кривой, очерченную контуром:

с помощью гистограммы можно определить графически

Обратите внимание, что флажки можно отмечать как по отдельности, так и в любых комбинациях. В таком виде гистограмма менее наглядна и, возможно, на первый взгляд покажется не столь понятной. С другой стороны, использование точек, к примеру, позволяет оценить, насколько точно данные аппроксимированы кривой распределения, а с помощью проекционных линий и обрамленных областей сравнить несколько массивов данных гораздо проще, чем с помощью стандартных “столбчатых” гистограмм.

Кроме стандартных настроек, общих для всех графиков в Minitab (таких как настройка шкалы осей, цветов отдельных элементов графика, линий и границ), следует отметить настройку интервалов – Binning. Эта опция специфична для гистограмм. Чтобы перейти к настройке интервалов, дважды кликните на диаграмму – откроется окно редактирования графика. В нем следует дважды кликнуть либо по самой гистограмме, либо по оси данных (X). В открывшемся окне необходимо перейти на вкладку Binning:

с помощью гистограммы можно определить графически

Настройки по умолчанию: Interval Type – Midpoint (значения по оси X будут расположены в центре частотных ячеек); Interval Definition – Automatic (количество интервалов определяется программой). Выбав Cutpoint в поле Interval Type, мы сдвигаем интервалы данных таким образом, что значения по оси X будут лежать в точках состыковки прямоугольников – интервалов данных, а установив флажок напротив Number of intervals в поле Interval Definition, можем задать необходимое количество интервалов для гистограммы.

Сравните: вместо Midpoint выбрана опция Cutpoint, а количество интервалов изменено с 47 по умолчанию до 30:

с помощью гистограммы можно определить графически

Как проводить анализ гистограмм?

Гистограммы нужны для того, чтобы наглядно представить распределение наблюдений. Но что еще мы можем увидеть, рассматривая прямоугольники, составляющие этот график? Какую информацию можем “прочесть”? На что обратить внимание и как это лучше сделать?

Визуальная оценка гистограмм позволяет воспринять ряд статистических показателей:

Все это постараемся разобрать ниже.

Как уже неоднократно упоминалось в этой публикации, первое, что мы будем оценивать, глядя на гистограмму – это распределение наблюдений. Тут нет ничего сложного: мы просто визуально оцениваем, на какое из известных нам распределений похожа форма нашего графика. В проектах шести сигм чаще всего сравнивают сходство с нормальным законом распределения. Визуально оценивать согласие с любым другим законом сложно, но если вы возьметесь за это, посмотрите, как могут выглядеть различные Типы распределений и соответствующие им гистограммы.

Гистограмма позволяет анализировать частотное распределение числового ряда, а соответственно дает возможность выделить наиболее вероятные число или интервал с наибольшим количеством наблюдений – другими словами, пик. Гистограмма с ярко выраженным пиком называется унимодальной:

с помощью гистограммы можно определить графически

Если мы можем различить у гистограммы два ярко выраженных пика, то гистограмма называется бимодальной. Во многих случаях это значит, что выборки происходят из двух разных популяций, так как наличие двух мод в одной популяции – маловероятное явление или присущее лишь некоторым процессам. Примеры таких процессов можно найти в публикациях О бимодальном распределении и полиэтилене низкого давления и Как получить бимодальное распределение?

Гистограмма с двумя модами может выглядеть следующим образом:

с помощью гистограммы можно определить графически

И если вы получаете такое распределение по результатам входящего контроля качества, то, вероятнее всего, ваш поставщик отбирает лучшие детали, а вам посылает все остальное. Эта практика часто применяется в электронной промышленности: поставщик производит электронные компоненты, а на выходе своего процесса разделяет их на несколько групп в зависимости от того, насколько близко значение к номиналу.

Гистограммы с тремя и большим количеством пиков (многомодальные) встречаются крайне редко и, зачастую, также свидетельствуют о присутствии специальных факторов, влияющих на исследуемую систему или процесс. Частный случай такого распределения – “плато” или гистограмма, каждый интервал которой содержит примерно равное количество значений. Такая гистограмма называется однородной или гистограммой равномерного распределения:

с помощью гистограммы можно определить графически

И если вы получаете такое распределение по результатам входящего контроля качества, то, вероятнее всего, ваш поставщик отбирает для вас лучшие детали, а все остальное посылает конкурентам.

Кроме количества пиков на гистограмме можно оценить его положение или симметрию. Гистограмма называется симметричной, если она имеет симметричную форму относительно центральной линии (правая и левая стороны одинаковой формы). Ассиметричные гистограммы бывают со скосом влево или вправо от осевой линии.

Если левая сторона гистограммы вытянута значительно больше, чем правая (или левый “хвост” значительно длиннее правого), то говорят, что гистограмма имеет отрицательную асимметрию:

с помощью гистограммы можно определить графически

Соответственно, у гистограммы с положительной асимметрией больше в сторону выдаётся правая сторона (или правый “хвост” значительно длиннее левого):

с помощью гистограммы можно определить графически

Как представить данные на гистограмме?

Представление данных в виде диаграмм и графиков преследует одну цель: подать информацию в наглядном и понятном виде. Таким образом, важнейшими характеристиками любых диаграмм являются информативность и доступность тех данных, которые представлены с их помощью.

Несмотря на то, что гистограмма является достаточно простым и легким для восприятия графиком, представление данных с ее помощью требуют от исследователя определенного опыта, а от постороннего человека – понимания принципов построения и анализа гистограмм. Само собой разумеется, что гистограмма, построенная “своими руками”, будет понятна вам, но для человека, не знакомого с результатами наблюдений (или процессом, который описывают результаты наблюдений), ваш график может показаться не столь очевидным. Насколько построенная вами гистограмма будет информативна и понятна стороннему наблюдателю, определяет в конечном итоге то, как будет воспринята информация, которую вы показываете с ее помощью.

Как же построить такую гистограмму, которая гарантирует, что преподносимая с ее помощью информация, будет понятна всем?

Во-первых, не следует пренебрегать атрибутами стандартного графика: название гистограммы, величины и размерности осей X и Y – это первое, на что обращает внимание опытный исследователь. В этой публикации вы можете найти несколько примеров того, как гистограмма обращала ваше внимание на данные:

с помощью гистограммы можно определить графически

И того, как гистограмма заставляла вас совершенно забыть о данных, воспринимая ее лишь как иллюстрацию сказанному:

с помощью гистограммы можно определить графически

Во-вторых, представляя данные в виде гистограммы, вы должны быть уверены, что этот тип диаграмм наилучшим образом отражает ту информацию, которую вы пытаетесь показать. К примеру, разница между столбчатой диаграммой (Bar Chart) и гистограммой базируется в основном на различии представляемых типов данных. Выше мы подробно рассмотрели отличие гистограмм от других графиков. Надеюсь, это вам поможет понять, когда гистограмма не подойдет для представления имеющихся у вас данных.

В-третьих, не пренебрегайте дополнительными возможностями программного обеспечения. Большинство пакетов статистической обработки данных содержит встроенную функцию расчета описательных статистик и вывода графического отчета. В Mintab выберите Stat \ Basic Statistics \ Graphical Summary, чтобы получить такой график:

с помощью гистограммы можно определить графически

Глядя на полученный результат, вы можете увереннее интерпретировать данные:

Как сравнивать разные массивы данных с помощью гистограмм?

Выше мы рассмотрели общие принципы построения гистограмм и некоторые тонкости представления данных с их помощью. В этом разделе мы разберем, как сравнить гистограммы двух и более групп данных в Minitab.

Может показаться очевидным, но для того, чтобы сравнивать гистограммы различных групп данных, они должны быть:

Этого можно добиться несколькими путями в Minitab:

с помощью гистограммы можно определить графически

Этот способ подойдет, когда вам необходимо сравнить данные в разных колонках. Если же несколько массивов данных находятся в одной колонке (а именно в таком виде чаще всего удается получить результаты из базы данных производственной системы), используйте третий вариант.

с помощью гистограммы можно определить графически

с помощью гистограммы можно определить графически

с помощью гистограммы можно определить графически

с помощью гистограммы можно определить графически

с помощью гистограммы можно определить графически

Все остальные настройки и способы кастомизации, специфические для гистограмм и общие для всех графиков в Minitab, также доступны. Этого спектра более чем достаточно для сравнения данных и визуализации ваших выводов. Однако вы должны понимать, что происхождение данных, что они обозначают и цели анализа программе неизвестны. Именно поэтому настройка и оформление гистограмм проводится вручную. Множество дополнительных опций, в том числе изменение цветовых гамм, типов и толщины линий, изменений форм и размеров фигур, являются, безусловно, очень полезными при построении и оформлении гистограмм. Главное – не переусердствовать и всегда сохранять понимание того, что является одним из основных преимуществ гистограмм – простота и доступность понимания как для вас, так и для того, кому вы её представляете.

______________________________________
1 Подробнее о типах данных, а также отличии атрибутивных от непрерывных данных читайте в статье Типы данных.
2 Статистически грамотнее было бы сказать, что мы не можем отклонить гипотезу о подчинении распределения наблюдений нормальному закону. В тексте статьи использовано не совсем точное, однако более понятное выражение, которое отнюдь не меняет полученный вывод. Прим. ред.
3 На самом деле внешний вид будет зависеть от версии Minitab, которую вы используете. Прим. ред.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *