- Визуализация статистических данных с помощью диаграммы ящик с усами
- 5-числовая сводка данных
- Диаграмма ящик с усами в Excel 2016
- Какой метод расчета квартилей предпочесть
- Диаграмма «ящик с усами» в статистике
- Диаграмма «ящик с усами»
- Построение диаграммы «Ящик с усами» рассмотрим на следующем примере
- Шаги построения диаграммы «ящик с усами»
Визуализация статистических данных с помощью диаграммы ящик с усами
Предыстория. В связи с холодными днями в мае и июне 2017 г. я изучил климатические данные многолетних наблюдений, и хотел опубликовать заметку о статистическом взгляде на всё это безобразие. В качестве иллюстрации одной из своих идей я построил блочную диаграмму. Во время ее форматирования я обнаружил, что не вполне понимаю, по каким алгоритмам Excel рисует на ней границы квартилей. Углубившись в вопрос, я узнал много нового, о чем захотел поделиться с читателями блога. Но подумал, что описание тонких алгоритмов как бы повисает в воздухе, и поэтому решил начать с небольшого теоретического введения.
Рис. 1. Визуальное представление выборки: (а) диаграмма разброса показывает все элементы выборки; (б) 5-числовая сводка в виде графика ящик с усами
Скачать заметку в формате Word или pdf, примеры в формате Excel
5-числовая сводка данных
Изучая выборку, мы можем визуализировать все ее значения (рис. 1а), а можем научиться выражать в сжатом виде наиболее часто встречающиеся общие особенности. В последнем случае используют сводки данных. Сегодня наиболее популярными сводками (или статистиками) являются среднее значение и среднеквадратичное отклонение (подробнее см. Определение среднего значения, вариации и формы распределения. Описательные статистики). Однако, во-первых, так было не всегда, а во-вторых, не во всех случаях эти статистики лучше всего описывают выборку.
Любопытный пример приводит Нассим Николас Талеб (см. Черный лебедь. Под знаком непредсказуемости). Если вы определяете средний рост 100 человек, то нахождение среди этой сотни самого высокого человека в мире (2 м 72 см) не сильно изменит среднее значение. А вот если вы определяете среднее богатство 100 человек, то наличие среди них Билла Гейтса ($86,8 млрд.) полностью исказит картину. В этих случаях более релевантной сводкой является медиана.
Медиана – такое число, что ровно половина из элементов выборки больше него, а другая половина меньше него. Если случайные данные упорядочить по возрастанию, получится вариационный ряд. Если такой ряд содержит нечетное число элементов, то медиана – среднее из них; если четное, то медиана – половина суммы двух средних элементов.
В своей, уже ставшей классической, работе Анализ результатов наблюдений. Разведочный анализ Джон Тьюки предлагает 5-числовые сводки, которые включают: минимальное значение, первый квартиль, медиану, третий квартиль, максимальное значение. Процесс нахождения медианы, а затем квартилей можно представить себе, как складывание листа бумаги. Поэтому эти новые значения Тьюки называет сгибами (подробнее см. КВАРТИЛЬ: какие формулы расчета использует Excel). Чтобы представить 5-чиловую сводку визуально, Тьюки предлагает построить график ящик с усами (рис. 1б).
Диаграмма ящик с усами в Excel 2016
В предыдущих версиях Excel приходилось шаманить, чтобы представить статистические данные (см., например, Биржевая диаграмма, она же блочная, она же ящичная). В качестве альтернативы я иногда использовал R (см. Алексей Шипунов. Наглядная статистика. Используем R!). Сейчас же визуализация статистических данных выполняется в несколько кликов. Очень удобно! Вот только Microsoft почему-то сделал весьма краткое описание того, что же собственно отражают элементы диаграммы ящик с усами (см. поддержку MS). Восполним же этот пробел))
Построим диаграмму ящик с усами на основе данных о средних температурах июля за последние 30 лет (рис. 2).
Рис. 2. Основные настройки диаграммы ящик с усами
На рисунке под диаграммой рассчитана 5-числовая сводка. На диаграмме:
- нижний ус соответствует минимальному значению в выборке данных,
- низ ящика – 1-му квартилю,
- линия внутри ящика – медиане,
- верх ящика – 3-му квартилю,
- верхний ус – второму максимальному значению (выбросы не учитываются); если бы данные не содержали выброса, верхний ус соответствовал бы максимальному значению,
- опциально отдельными точками показаны выбросы.
Рассмотрим параметры ряда подробнее (см. Формат ряда данных на правой части рис. 2). Боковой зазор определяет ширину ящика и ширину горизонтальных границ усов, а также расстояние между ящиками, если их несколько (рис. 3). Параметр Показать внутренние точки – говорит сам за себя (рис. 4). Показать точки выбросов – любопытно, что Excel просто перестает показывать выбросы, при этом никак не меняет параметры ящика и усов (рис. 5). Показать средние метки – наряду с медианной линией отражает в виде крестика среднее арифметическое значение по выборке (рис. 6). Видно, что среднее арифметическое смещено относительно медианы вверх (в сторону выброса). Среднее арифметическое более чувствительно к выбросам по сравнению с медианой. Показать среднюю линию – соединяет средние значения разных категорий. У меня не получилось отразить эти линии. А у Дмитрия Езипова получилось.
Рис. 3. Боковой зазор: слева – 300%, справа – 100%
Рис. 4. Показать внутренние точки; слева параметр выключен, справа – включен
Рис. 5. Показать точки выбросов; слева параметр выключен, справа – включен
Рис. 6. Показать средние метки; слева параметр выключен, справа – включен
Какой метод расчета квартилей предпочесть
И, наконец, самый непонятный параметр форматирования диаграммы ящик с усами – Расчет квартиля. В сообществе статистиков нет единого мнения, по какому алгоритму считать квартили. В Excel используется два алгоритма. Если вы хотите в них досконально разобраться, рекомендую КВАРТИЛЬ: какие формулы расчета использует Excel. Если кратко, то в Excel есть две функции КВАРТИЛЬ.ИСКЛ() и КВАРТИЛЬ.ВКЛ(). Первая использует алгоритм эксклюзивной медианы, вторая – инклюзивной. Алгоритм расчета квартилей в первом случае дает значения чуть более далекие от медианы, т.е. ящик немного более вытянутый. Визуально это не разглядеть, и только если добавить подписи данных, то числа покажут этот эффект (рис. 7).
Рис. 7. Расчет квартиля: (а) эксклюзивная медиана, (б) инклюзивная медиана
Если вы обрабатываете данные в разных программах (Excel, R, SAS…), то для совместимости, наверное, лучше использовать квартили, рассчитанные по методу эксклюзивной медианы. Поскольку этот метод используется во всех продуктах, вы получите одинаковые числа в разных программах. Если же вы работаете только в Excel, я бы рекомендовал метод инклюзивной медианы. Он более чувствителен к выбросам, т.е. при прочих равных КВАРТИЛЬ.ВКЛ() определит точку как выброс при меньшем отклонении от медианы (рис. 8).
Рис. 8. (б) Точка, которая идентифицируется функцией КВАРТИЛЬ.ВКЛ(), как выброс, в то время, как (а) КВАРТИЛЬ.ИСКЛ() еще не считает эту точку выбросом
Источник статьи: http://baguzin.ru/wp/vizualizatsiya-statisticheskih-dannyh/
Диаграмма «ящик с усами» в статистике
Содержание:
Диаграмма «ящик с усами»
Построение диаграммы «Ящик с усами» рассмотрим на следующем примере
Задача пример №154
15 работников фирмы при сдаче экзамена по технике безопасности, получили следующие баллы:
13 9 18 15 14 21 7 10 11 20 5 18 37 16 17.
Представьте данную информацию в виде диаграммы «ящик с усами».
Решение:
1. Расположите данные в порядке возрастания, определите медиану и отметьте ее через .
2. Данные слева от медианы расположены в первой нижней половине, справа от медианы — в верхней половине. Т.е. медиана делит данные на две половинки.
3. Медианы половинок, называемые квартилями (здесь = 10,
= 18), разбивают данные на 4 части.
4. Определяют изменение между квартилями —
= 18 — 10 = 8
5. Отметим на числовой оси наименьшее и наибольшее значения, квартили и медиану — 5 важных точек. Нарисуем прямоугольник, длина которого равна разности изменению между квартилями. Этот прямоугольник делится медианой на две части. Теперь нарисуем «усы», соединив наибольшее и наименьшее значения с соответствующими квартилями.
Мы построили диаграмму «ящик с усами» в соответствии с представленными данными. Теперь, по диаграмме, представим данные. Из диаграммы видно, что приблизительно половина, 50 % , из 15 человек набрали от 10 до 18 баллов, 25% — меньше 10 баллов и 25% — больше 10 баллов.
Разница длин левого и правого «уса» зависит от разницы значений данных в соответствующих частях.
Для построении диаграммы «ящик с усами» из заданной совокупности выделяют 5 значений:
Медиану , квартиль
, значение которого меньше медианы и является медианой нижней половины, квартиль
, значение которого больше медианы и является медианой верхней половины множества данных, наибольшее и наименьшее значения.
Шаги построения диаграммы «ящик с усами»
1. Проводится горизонтальная прямая.
2. В зависимости от диапазона изменения данных проводится деление.
3. На прямой отмечают 5 значений — ,
,
, наименьшее значение, наибольшее значение.
4. От до
рисуется ящик.
5. Рисуем «усы» от : до минимального значения и от
до максимального значения.
Задача пример №155
Ниже представлены данные возраста участниц женской паралимпийской команды по волейболу
24, 30, 30, 22, 25, 22, 18, 25, 28, 30, 25, 27. Представьте данные в виде диаграммы «ящик с усами».
Решение:
1. Расположим данные и найдем медиану и квартили.
2. Изобразим числовую ось и отметим эти следующие данные.
3. При помощи разности квартилей —
= 29 -23 = 6 нарисуем ящик и разделим его на две части (при помощи медианы). Соединим ящик с наибольшим и наименьшим значением.
4. Представление диаграммы. Возраст 50% баскетболисток между 23-29 годами, 25% меньше 23 лет, 25% — больше 29 лет. Длинными или короткими являются «усы» ящика показывает, близко ли или далеко расположены друг от друга данные внутри 25% — го интервала. Например, левый «ус» длиннее, правый — короче. Так как в 25%-интервале значения изменяются между 18-23, а в левом «усе» мы встречаем только два значения 29-30.
Данные, которые сильно отличаются от основных данных совокупности, называются выбросами. Выбросы можно определить относительно верхнего и нижнего квартиля. В этом случае выбросом считается, значение в 1,5 раза больше или меньше разности —
. Например, в рассмотренном нами примере нижний квартиль 23, верхний квартиль 29, разность квартилей 6. Тогда значения 23 — 1,5 • 6 = 14 и 29 + 1,5 • 6 = 38 считаются граничными значениями. Все значения, которые больше 38 и меньше 14, называются выбросами.
Эта лекция взята из раздела решения задач по математике, там вы найдёте другие лекци по всем темам математики:
Математика: полный курс решений задач в виде лекций |
Другие темы которые вам помогут понять математику:
Присылайте задания в любое время дня и ночи в whatsapp.
Официальный сайт Брильёновой Натальи Валерьевны преподавателя кафедры информатики и электроники Екатеринбургского государственного института.
Все авторские права на размещённые материалы сохранены за правообладателями этих материалов. Любое коммерческое и/или иное использование кроме предварительного ознакомления материалов сайта natalibrilenova.ru запрещено. Публикация и распространение размещённых материалов не преследует за собой коммерческой и/или любой другой выгоды.
Сайт предназачен для облегчения образовательного путешествия студентам очникам и заочникам по вопросам обучения . Наталья Брильёнова не предлагает и не оказывает товары и услуги.
Источник статьи: http://natalibrilenova.ru/diagramma-yaschik-s-usami-v-statistike/