Меню

Ящики с усами boxplots

Понимание Boxplots — — Данных Науки — 2021

Table of Contents:

Изображение выше представляет собой коробочный сюжет. Квадратный график — это стандартизированный способ отображения распределения данных на основе сводки из пяти чисел («минимум», первый квартиль (Q1), медиана, третий квартиль (Q3) и «максимум»). Он может рассказать вам о ваших выбросах и их значениях. Он также может сказать вам, являются ли ваши данные симметричными, насколько плотно ваши данные сгруппированы, и если и как ваши данные искажены.

Этот урок будет включать в себя:

  • Что такое боксплот?
  • Понимание анатомии коробчатого графика путем сравнения коробчатого графика с функцией плотности вероятности для нормального распределения.
  • Как вы делаете и интерпретируете боксплоты с использованием Python?

Как всегда, код, используемый для создания графиков, доступен на моем github. Давайте начнем!

Что такое Boxplot?

Для некоторых распределений / наборов данных вы обнаружите, что вам нужно больше информации, чем меры центральной тенденции (медиана, среднее значение и мода).

У вас должна быть информация об изменчивости или разбросе данных. График представляет собой график, который дает вам хорошее представление о том, как распределяются значения в данных. Хотя ящики партий могут показаться примитивными по сравнению с гистограммой или графиком плотности, они имеют преимущество в том, что занимают меньше места, что полезно при сравнении распределений между многими группами или наборами данных.

Боксовые диаграммы — это стандартизированный способ отображения распределения данных на основе сводки из пяти чисел («минимум», первый квартиль (Q1), медиана, третий квартиль (Q3) и «максимум»).

Медиана (Q2 / 50-й процентиль): среднее значение набора данных.

первый квартиль (Q1 / 25-й процентиль): среднее число между наименьшим числом (не «минимумом») и медианой набора данных.

третий квартиль (Q3 / 75-й процентиль): среднее значение между медианой и наибольшим значением (не «максимумом») набора данных.

межквартильный размах (IQR): С 25 по 75 процентиль.

усы (показаны синим цветом)

выбросы (показаны зелеными кружками)

«Максимум»: Q3 + 1,5 * IQR

«Минимальный»: Q1 -1,5 * IQR

Что определяет выброс, «минимум» или «максимум», может быть еще не ясно. В следующем разделе мы постараемся прояснить это для вас.

Boxplot на нормальном распределении

Изображение выше представляет собой сравнение коробчатого графика почти нормального распределения и функции плотности вероятности (pdf) для нормального распределения. Причина, по которой я показываю вам это изображение, заключается в том, что просмотр статистического распределения является более распространенным явлением, чем просмотр коробочного графика. Другими словами, это может помочь вам понять коробочный сюжет.

Этот раздел будет охватывать много вещей, включая:

  • Каковы выбросы (для нормального распределения) .7% данных.
  • Что такое «минимум» и «максимум»

Функция плотности вероятности

Эта часть поста очень похожа на статью правил 68–95–99.7, но адаптирована для коробочного сюжета. Чтобы понять, откуда взялись проценты, важно знать о функции плотности вероятности (PDF). PDF используется для определения вероятности падения случайной величины в пределах определенного диапазона значений , в отличие от принятия какого-либо одного значения. Эта вероятность определяется интегралом PDF этой переменной по этому диапазону, т. Е. Определяется площадью под функцией плотности, но выше горизонтальной оси и между самым низким и наибольшим значениями диапазона. Это определение может не иметь особого смысла, поэтому давайте проясним его, построив график функции плотности вероятности для нормального распределения. Уравнение ниже является функцией плотности вероятности для нормального распределения

Читайте также:  Малышка у тебя слишком классная стрижка моргенштерн

Давайте упростим это, предполагая, что у нас есть среднее значение (μ) 0 и стандартное отклонение (σ) 1.

Это можно изобразить с помощью чего угодно, но я предпочитаю строить графики с помощью Python.

# Импортировать все библиотеки для этой части поста в блоге
от scipy.integrate импортный квад
импортировать numpy как np
импортировать matplotlib.pyplot как plt
% matplotlib встроенный

x = np.linspace (-4, 4, num = 100)
константа = 1,0 / np.sqrt (2 * np.pi)
pdf_normal_distribution = constant * np.exp ((- x ** 2) / 2.0)
fig, ax = plt.subplots (figsize = (10, 5));
ax.plot (x, pdf_normal_distribution);
ax.set_ylim (0);
ax.set_title («Нормальное распределение», размер = 20);
ax.set_ylabel (‘Плотность вероятности’, размер = 20);

График выше не показывает вам вероятность событий, но их плотность вероятности. Чтобы получить вероятность события в заданном диапазоне, нам нужно интегрировать. Предположим, что мы заинтересованы в том, чтобы найти вероятность случайной посадки точки данных в межквартильном диапазоне .6745 стандартного отклонения от среднего, нам нужно интегрировать от -.6745 до .6745. Это можно сделать с помощью SciPy.

# Сделать PDF для нормального распределения функцией
def normalProbabilityDensity (x):
константа = 1,0 / np.sqrt (2 * np.pi)
return (константа * np.exp ((- x ** 2) / 2.0))

# Интегрировать PDF от -.6745 до .6745
result_50p, _ = quad (normalProbabilityDensity, -.6745, .6745, предел = 1000)
печать (result_50p)

То же самое можно сделать для «минимума» и «максимума».

# Сделать PDF для нормального распределения функцией
def normalProbabilityDensity (x):
константа = 1,0 / np.sqrt (2 * np.pi)
return (константа * np.exp ((- x ** 2) / 2.0))

# Интеграция PDF с -2,698 до 2,698
result_99_3p, _ = quad (normalProbabilityDensity,
-2.698,
2.698,
предел = 1000)
печать (result_99_3p)

Как упоминалось ранее, выбросы — это оставшиеся 0,7% процентов данных.

Важно отметить, что для любого PDF область под кривой должна быть равна 1 (вероятность получения любого числа из диапазона функции всегда равна 1).

Графика и интерпретация Boxplot

Очевидно, у вас не всегда будет базовое нормальное распределение для коробочного сюжета. Давайте использовать набор данных по диагностике рака молочной железы в Висконсине, чтобы показать, как использовать коробочный график на реальных данных. Если у вас нет учетной записи Kaggle, вы можете загрузить набор данных с моего github.

Читайте в данных

Код ниже считывает данные в фрейм данных Pandas.

импортировать панд как pd
импорт морского как sns
импортировать matplotlib.pyplot как plt

# Поместите набор данных в мой репозиторий github
df = pd.read_csv (‘http://raw.githubusercontent.com/mGalarnyk/Python_Tutorials/master/Kaggle/BreastCancerWisconsin/data/data.csv’)

График Boxplot

Приведенный ниже блок-график используется для анализа взаимосвязи между категориальным признаком (злокачественная или доброкачественная опухоль) и непрерывным признаком (area_mean).

Есть несколько способов графически представить коробочный график через Python. Вы можете составить график бокса через морского волка, панд или морского рожка.

рожденное море

Код ниже передает кадр данных панд Д.Ф. в морские boxplot .

sns.boxplot (x = ‘диагноз’, y = ‘area_mean’, данные = df)

Matplotlib

Бокплоты, которые вы видели в этом посте, были сделаны через matplotlib. Этот подход может быть гораздо более утомительным, но может дать вам более высокий уровень контроля.

злокачественная = df df ‘диагноз’ == ‘M’ ‘area_mean’
доброкачественная = df df ‘диагноз’ == ‘B’ ‘area_mean’

Читайте также:  Прически этого года каре

fig = plt.figure ()
ax = fig.add_subplot (111)
ax.boxplot (злокачественные, доброкачественные, метки = ‘M’, ‘B’)

панд

Вы можете построить коробочный сюжет, вызвав .boxplot () на вашем DataFrame. Код ниже делает коробку из area_mean колонка относительно другого диагноза.

df.boxplot (столбец = ‘area_mean’, by = ‘диагноз’);
plt.title ( »)

Зубчатый Boxplot

Боксовый участок с надрезом позволяет вам оценить доверительные интервалы (по умолчанию 95% доверительный интервал) для медиан каждого боксплотта.

злокачественная = df df ‘диагноз’ == ‘M’ ‘area_mean’
доброкачественная = df df ‘диагноз’ == ‘B’ ‘area_mean’

fig = plt.figure ()
ax = fig.add_subplot (111)
ax.boxplot (злокачественные, доброкачественные, notch = True, метки = ‘M’, ‘B’);

Интерпретация бокса

Наука о данных — это передача результатов, так что имейте в виду, что вы всегда можете сделать свои блокпосты немного красивее с небольшим количеством работы (код здесь).

Используя график, мы можем сравнить диапазон и распределение area_mean для злокачественной и доброкачественной диагностики. Мы наблюдаем большую вариабельность злокачественной опухоли area_mean, а также большие выбросы.

Кроме того, поскольку выемки на коробочных площадках не перекрываются, можно сделать вывод, что с 95% уверенностью истинные медианы действительно отличаются.

Вот еще несколько вещей, которые следует иметь в виду применительно к коробочкам:

  1. Имейте в виду, что вы всегда можете извлечь данные из коробочного графика на тот случай, если вы захотите узнать, каковы числовые значения для разных частей коробочного графика.
  2. Матплотлиб делает не сначала оцените нормальное распределение и вычислите квартили из оцененных параметров распределения. Медиана и квартили рассчитываются непосредственно из данных. Другими словами, ваш блокпост может выглядеть по-разному в зависимости от распределения ваших данных и размера выборки, например, асимметричного и с более или менее выпадающими значениями.

Заключение

Надеюсь, это не было слишком много информации на бокс-плотах. В следующих уроках вы узнаете некоторые из этих знаний и узнаете, как применять их для понимания доверительных интервалов. В следующем уроке я расскажу, как использовать и создать таблицу Z (стандартная обычная таблица). Если у вас есть какие-либо вопросы или мысли по поводу учебника, не стесняйтесь обращаться в комментариях ниже или через Twitter.

Источник статьи: http://ru.sciencewal.com/84045-understanding-boxplots-5e2df7bcbd51-85

Диаграмма «ящик с усами» (boxplot) в Excel 2016

Excel 2016, как известно, обогатился новыми типами диаграмм. Одна такая, которая диаграмма Парето, уже была показана. В этот раз рассмотрим другую, чисто статистическую. Называется «ящик с усами» или «коробчатая диаграмма» (box-and-whiskers plot или boxplot).

Раньше я такие видел только в специализированных ПО, типа STATISTICA, и для того, чтобы нарисовать подобную диаграмму в Excel, нужно было изрядно потрудиться. Теперь она есть в стандартном наборе Excel.

Зачем нужна такая диаграмма? Допустим, есть выборка для анализа. А еще лучше несколько выборок, которые нужно сравнить. Для этого рассчитывают различные показатели. Однако к любому расчету всегда хочется добавить наглядности, чтобы мозг перешел в режим образного представления, а не довольствовался сухими цифрами и формулами. Поэтому основные характеристики ловко изображают на рисунке. Отличным вариантом будет как раз диаграмма «ящик с усами».

На рисунке показан формат по умолчанию. Как видно, сравниваются две выборки путем изображения двух «ящиков с усами».

Читайте также:  Прическа для девочки с канзашами

Что здесь что обозначает?

Крестик посередине – это среднее арифметическое по выборке.

Линия чуть выше или ниже крестика – медиана.

Нижняя и верхняя грань прямоугольника (типа ящика) соответствует первому и третьему квартилю (значениям, отделяющим ¼ и ¾ выборки). Расстояние между 1-м и 3-м квартилем – это межквартильный размах (или расстояние).

Горизонтальные черточки на конце «усов» – максимальное и минимальное значение (без учета выбросов, см. ниже).

Отдельные точки – это выбросы, которые показываются по умолчанию. Если значение выходит за пределы 1,5 межквартильных размаха от ближайшего квартиля, то оно считается аномальным. Их можно скрыть (см. ниже настройки).

Во всей красе «ящик с усами» проявляется при сравнении выборок, в которых данные делятся на категории. Допустим, провели некоторый эксперимент среди мужчин и женщин. Есть данные до и после эксперимента по обоим полам. Для анализа потребуется вычислить различные показатели. А если к этому добавить диаграмму «ящик с усами», то результат будет весьма наглядным.

Отлично видно, что после проведения эксперимента данные по мужчинам в целом уменьшились, а данные среди женщин наоборот, увеличились. Это не значит, что выборки больше не нужно анализировать (сравнивать, проверять гипотезы и т.д.). Но наглядность сильно улучшает понимание. Перейдем к настройкам.

Настройки диаграммы «ящик с усами»

Общий вид диаграммы настраивается стандартно. Можно менять цвет, добавлять подписи и т.д. Для этого есть две контекстные вкладки на ленте (Конструктор и Формат). Но есть настройки, предназначенные специально для этой диаграммы.

Выбираем какой-либо ряд и жмем Ctrl+1. Либо два раза кликаем по какому-нибудь «ящику». Можно через правую кнопку Формат ряда данных…. Справа вылазит панель настроек.

Рассмотрим по порядку.

Боковой зазор – регулирует ширину ящиков и расстояние между ними.

Показывать внутренние точки. Если поставить галочку, то на оси, где расположены «усы», точками будут показаны все значения. Так хорошо видно распределение внутри групп.

Показывать точки выбросов – отражать экстремальные значения.

Выбросы – это точки, выходящие за пределы 1,5 межквартильных размаха.

Показать средние метки – среднее арифметическое (крестики). Стоят по умолчанию, но можно скрыть.

Показать среднюю линию – только для различных категорий. Показывает изменения по категориям.

Если добавить линии, то изменения после эксперимента станут видны еще лучше. В справке написано, что соединяются медианы, но на графике почему-то соединяются средние. Чудеса.

Инклюзивная медиана или эксклюзивная медиана. Инклюзивная медиана включает в «ящик» квартильные значения , а эксклюзивная медиана не включает. При выборе «эксклюзивной медианы» верх и низ «ящика» соответствует средней между квартильным и следующим (от центра) значением. По умолчанию стоит «эксклюзивная». Пусть стоит дальше. Причем тут медиана, вообще не понял, – речь ведь про квартиль. Думал, криво перевели, но в английской версии те же названия. В общем, здесь лучше ничего не менять.

Своевременное использование диаграммы «ящик-усы» может дать весьма ценную и наглядную информацию. Аналитику, который использует специализированные программы или трудоемкие настройки Excel, будет очень приятно иметь такую диаграмму под рукой.

Как показано в ролике ниже, все делается очень быстро и просто.

Источник статьи: http://statanaliz.info/excel/diagrammy/diagramma-yashhik-s-usami-boxplot-v-excel-2016/

Adblock
detector