Построить коробку с усами

Визуализация статистических данных с помощью диаграммы ящик с усами

Предыстория. В связи с холодными днями в мае и июне 2017 г. я изучил климатические данные многолетних наблюдений, и хотел опубликовать заметку о статистическом взгляде на всё это безобразие. В качестве иллюстрации одной из своих идей я построил блочную диаграмму. Во время ее форматирования я обнаружил, что не вполне понимаю, по каким алгоритмам Excel рисует на ней границы квартилей. Углубившись в вопрос, я узнал много нового, о чем захотел поделиться с читателями блога. Но подумал, что описание тонких алгоритмов как бы повисает в воздухе, и поэтому решил начать с небольшого теоретического введения.

Рис. 1. Визуальное представление выборки: (а) диаграмма разброса показывает все элементы выборки; (б) 5-числовая сводка в виде графика ящик с усами

Скачать заметку в формате Word или pdf, примеры в формате Excel

5-числовая сводка данных

Изучая выборку, мы можем визуализировать все ее значения (рис. 1а), а можем научиться выражать в сжатом виде наиболее часто встречающиеся общие особенности. В последнем случае используют сводки данных. Сегодня наиболее популярными сводками (или статистиками) являются среднее значение и среднеквадратичное отклонение (подробнее см. Определение среднего значения, вариации и формы распределения. Описательные статистики). Однако, во-первых, так было не всегда, а во-вторых, не во всех случаях эти статистики лучше всего описывают выборку.

Любопытный пример приводит Нассим Николас Талеб (см. Черный лебедь. Под знаком непредсказуемости). Если вы определяете средний рост 100 человек, то нахождение среди этой сотни самого высокого человека в мире (2 м 72 см) не сильно изменит среднее значение. А вот если вы определяете среднее богатство 100 человек, то наличие среди них Билла Гейтса ($86,8 млрд.) полностью исказит картину. В этих случаях более релевантной сводкой является медиана.

Медиана – такое число, что ровно половина из элементов выборки больше него, а другая половина меньше него. Если случайные данные упорядочить по возрастанию, получится вариационный ряд. Если такой ряд содержит нечетное число элементов, то медиана – среднее из них; если четное, то медиана – половина суммы двух средних элементов.

В своей, уже ставшей классической, работе Анализ результатов наблюдений. Разведочный анализ Джон Тьюки предлагает 5-числовые сводки, которые включают: минимальное значение, первый квартиль, медиану, третий квартиль, максимальное значение. Процесс нахождения медианы, а затем квартилей можно представить себе, как складывание листа бумаги. Поэтому эти новые значения Тьюки называет сгибами (подробнее см. КВАРТИЛЬ: какие формулы расчета использует Excel). Чтобы представить 5-чиловую сводку визуально, Тьюки предлагает построить график ящик с усами (рис. 1б).

Читайте также:  Короткая стрижка с объемной прямой челкой

Диаграмма ящик с усами в Excel 2016

В предыдущих версиях Excel приходилось шаманить, чтобы представить статистические данные (см., например, Биржевая диаграмма, она же блочная, она же ящичная). В качестве альтернативы я иногда использовал R (см. Алексей Шипунов. Наглядная статистика. Используем R!). Сейчас же визуализация статистических данных выполняется в несколько кликов. Очень удобно! Вот только Microsoft почему-то сделал весьма краткое описание того, что же собственно отражают элементы диаграммы ящик с усами (см. поддержку MS). Восполним же этот пробел))

Построим диаграмму ящик с усами на основе данных о средних температурах июля за последние 30 лет (рис. 2).

Рис. 2. Основные настройки диаграммы ящик с усами

На рисунке под диаграммой рассчитана 5-числовая сводка. На диаграмме:

  • нижний ус соответствует минимальному значению в выборке данных,
  • низ ящика – 1-му квартилю,
  • линия внутри ящика – медиане,
  • верх ящика – 3-му квартилю,
  • верхний ус – второму максимальному значению (выбросы не учитываются); если бы данные не содержали выброса, верхний ус соответствовал бы максимальному значению,
  • опциально отдельными точками показаны выбросы.

Рассмотрим параметры ряда подробнее (см. Формат ряда данных на правой части рис. 2). Боковой зазор определяет ширину ящика и ширину горизонтальных границ усов, а также расстояние между ящиками, если их несколько (рис. 3). Параметр Показать внутренние точки – говорит сам за себя (рис. 4). Показать точки выбросов – любопытно, что Excel просто перестает показывать выбросы, при этом никак не меняет параметры ящика и усов (рис. 5). Показать средние метки – наряду с медианной линией отражает в виде крестика среднее арифметическое значение по выборке (рис. 6). Видно, что среднее арифметическое смещено относительно медианы вверх (в сторону выброса). Среднее арифметическое более чувствительно к выбросам по сравнению с медианой. Показать среднюю линию – соединяет средние значения разных категорий. У меня не получилось отразить эти линии. А у Дмитрия Езипова получилось.

Рис. 3. Боковой зазор: слева – 300%, справа – 100%

Рис. 4. Показать внутренние точки; слева параметр выключен, справа – включен

Рис. 5. Показать точки выбросов; слева параметр выключен, справа – включен

Рис. 6. Показать средние метки; слева параметр выключен, справа – включен

Какой метод расчета квартилей предпочесть

И, наконец, самый непонятный параметр форматирования диаграммы ящик с усами – Расчет квартиля. В сообществе статистиков нет единого мнения, по какому алгоритму считать квартили. В Excel используется два алгоритма. Если вы хотите в них досконально разобраться, рекомендую КВАРТИЛЬ: какие формулы расчета использует Excel. Если кратко, то в Excel есть две функции КВАРТИЛЬ.ИСКЛ() и КВАРТИЛЬ.ВКЛ(). Первая использует алгоритм эксклюзивной медианы, вторая – инклюзивной. Алгоритм расчета квартилей в первом случае дает значения чуть более далекие от медианы, т.е. ящик немного более вытянутый. Визуально это не разглядеть, и только если добавить подписи данных, то числа покажут этот эффект (рис. 7).

Читайте также:  Красивая пышная прическа для длинных волос

Рис. 7. Расчет квартиля: (а) эксклюзивная медиана, (б) инклюзивная медиана

Если вы обрабатываете данные в разных программах (Excel, R, SAS…), то для совместимости, наверное, лучше использовать квартили, рассчитанные по методу эксклюзивной медианы. Поскольку этот метод используется во всех продуктах, вы получите одинаковые числа в разных программах. Если же вы работаете только в Excel, я бы рекомендовал метод инклюзивной медианы. Он более чувствителен к выбросам, т.е. при прочих равных КВАРТИЛЬ.ВКЛ() определит точку как выброс при меньшем отклонении от медианы (рис. 8).

Рис. 8. (б) Точка, которая идентифицируется функцией КВАРТИЛЬ.ВКЛ(), как выброс, в то время, как (а) КВАРТИЛЬ.ИСКЛ() еще не считает эту точку выбросом

Источник статьи: http://baguzin.ru/wp/vizualizatsiya-statisticheskih-dannyh/

Занятие 5. Построение графика Box-whisker plot

Занятие 5

Построение графика Box-whisker plot (коробчатая диаграмма, «Ящик с усами»)

Графики типа Box-whisker plot — коробчатые диаграммы — «Ящик с усами» — получили свое название за характерный вид: точку, соответствующую средней арифметической или медиане, окружает вертикально расположенный прямоугольник («ящик»), длина которого равна одному из показателей разброса или точности оценки генерального параметра. Дополнительно от этого прямоугольника отходят «усы», также равные по длине одному из показателей разброса или точности. Таким образом, графики Box-whisker plot позволяют показать срединные значения (среднее арифметическое, медиана) и значения разброса в выборке. Такие графики обычно используются для визуальной оценки разницы между двумя или более выборками (например, между датами отбора проб, экспериментальными группами и т.д.).

Для построения «ящиков с усами» необходимо в разделе Graphs основного меню выбрать 2D Graphs, а затем — Box plots.

Рисунок 1. Выбор в разделе Graphs основного меню Box-whisker plot

Рисунок 2. Внешний вид данного модуля, открытый на закладке Quick

Вернемся к примеру, рассмотренному на предыдущем занятии. Предположим, что мы хотим визуально сравнить, различается ли среднесуточная температура тела в 1-ые и 6-ые сутки. Для построения графика Box-whisker plot необходимо установить следующие настройки:

  • На закладке Advanced нажать на кнопку Variables и указать, какая из переменных является зависимой (Dependent) («Температура»), а какая — группирующей (Grouping) («Сутки»).
  • В поле Grouping intervals выбрать опцию Codes, а затем нажать кнопку Specify codes (Определить коды), чтобы указать программе, какие именно месяцы будут участвовать в построении графика. В выскочившем окошке ввести через пробел слова «1-ые» и «6-ые».
  • В меню Value поля Middle point (Средняя точка) необходимо выбрать Mean (Средняя) или Median (Медиана). В результате программа будет «знать», что на графике в качестве точек ей следует изображать средние значения температуры или ее медианы, соответственно. Например, выбираем Mean. Чуть выше расположенный в окне график изменяется и мы видим, как именно будут представлены наши данные на график. В данном случае это средняя ошибка и стандартное отклонение.
Читайте также:  Фамилия того кто носит усы

Рисунок 3. Порядок действий для построения графика Box-whisker plot

Теперь все настройки завершены. Нажимаем ОК и получаемый долгожданный «Ящикс усами».

Рисунок 4. График типа Box-whisker plot — «Ящик с усами»

Box-whisker plot — коробчатые диаграммы.

«позволяют дать очень полную статистическую характеристику для каждой из имеющихся на нем «точек-выборок»» — не точно. Коробчатые диаграммы позволяют показать срединные значения (среднее арифметическое, медиана) и значения разброса в выборках. И только.

Например, графики типа «пчелиный улей», «violine» дают куда более полную характеристику распределения.

Источник статьи: http://www.vnauke.by/schkola/Osnovy-dokazatelnoj-mediciny-Biomedicinskaja-statistika/Zanyatie-5—Postroenie-grafika-Box-whisker-plot

Диаграмма размаха («ящик с усами»)

Описание

Диаграммы размаха («ящик с усами») (Box and Whisker Plot или Box Plot) – это удобный способ визуального представления групп числовых данных через квартили.

Прямые линии, исходящие из ящика, называются «усами» и используются для обозначения степени разброса (дисперсии) за пределами верхнего и нижнего квартилей. Выбросы иногда отображаются в виде отдельных точек, находящихся на одной линии с усами. Диаграммы размаха могут располагаться как горизонтально, так и вертикально.

Диаграммы размаха, как правило, используются в описательной статистике и позволяют быстро исследовать один или более наборов данных в графическом виде. Несмотря на то, что в сравнении с гистограммой или графиком плотности, этот график может показаться примитивным, его преимущество – в экономии пространства, что особенно удобно при сравнении распределений между большим количеством групп или наборов данных.

Виды наблюдений, которые можно сделать на основе ящика с усами:

Каковы ключевые значения, например: средний показатель, медиана 25го перцентиля и так далее.

Существуют ли выбросы и каковы их значения.

Симметричны ли данные.

Насколько плотно сгруппированы данные.

Смещены ли данные и, если да, то в каком направлении.

Два из наиболее распространенных варианта ящика с усами – диаграмма размаха с переменной шириной и диаграмма размаха с метками.

Источник статьи: http://datavizcatalogue.com/RU/metody/diagramma_razmaha.html

Оцените статью
Adblock
detector