Меню

Ящик с усами как интерпретировать

Диаграмма «ящик с усами» (boxplot) в Excel 2016

Excel 2016, как известно, обогатился новыми типами диаграмм. Одна такая, которая диаграмма Парето, уже была показана. В этот раз рассмотрим другую, чисто статистическую. Называется «ящик с усами» или «коробчатая диаграмма» (box-and-whiskers plot или boxplot).

Раньше я такие видел только в специализированных ПО, типа STATISTICA, и для того, чтобы нарисовать подобную диаграмму в Excel, нужно было изрядно потрудиться. Теперь она есть в стандартном наборе Excel.

Зачем нужна такая диаграмма? Допустим, есть выборка для анализа. А еще лучше несколько выборок, которые нужно сравнить. Для этого рассчитывают различные показатели. Однако к любому расчету всегда хочется добавить наглядности, чтобы мозг перешел в режим образного представления, а не довольствовался сухими цифрами и формулами. Поэтому основные характеристики ловко изображают на рисунке. Отличным вариантом будет как раз диаграмма «ящик с усами».

На рисунке показан формат по умолчанию. Как видно, сравниваются две выборки путем изображения двух «ящиков с усами».

Что здесь что обозначает?

Крестик посередине – это среднее арифметическое по выборке.

Линия чуть выше или ниже крестика – медиана.

Нижняя и верхняя грань прямоугольника (типа ящика) соответствует первому и третьему квартилю (значениям, отделяющим ¼ и ¾ выборки). Расстояние между 1-м и 3-м квартилем – это межквартильный размах (или расстояние).

Горизонтальные черточки на конце «усов» – максимальное и минимальное значение (без учета выбросов, см. ниже).

Отдельные точки – это выбросы, которые показываются по умолчанию. Если значение выходит за пределы 1,5 межквартильных размаха от ближайшего квартиля, то оно считается аномальным. Их можно скрыть (см. ниже настройки).

Во всей красе «ящик с усами» проявляется при сравнении выборок, в которых данные делятся на категории. Допустим, провели некоторый эксперимент среди мужчин и женщин. Есть данные до и после эксперимента по обоим полам. Для анализа потребуется вычислить различные показатели. А если к этому добавить диаграмму «ящик с усами», то результат будет весьма наглядным.

Отлично видно, что после проведения эксперимента данные по мужчинам в целом уменьшились, а данные среди женщин наоборот, увеличились. Это не значит, что выборки больше не нужно анализировать (сравнивать, проверять гипотезы и т.д.). Но наглядность сильно улучшает понимание. Перейдем к настройкам.

Настройки диаграммы «ящик с усами»

Общий вид диаграммы настраивается стандартно. Можно менять цвет, добавлять подписи и т.д. Для этого есть две контекстные вкладки на ленте (Конструктор и Формат). Но есть настройки, предназначенные специально для этой диаграммы.

Выбираем какой-либо ряд и жмем Ctrl+1. Либо два раза кликаем по какому-нибудь «ящику». Можно через правую кнопку Формат ряда данных…. Справа вылазит панель настроек.

Рассмотрим по порядку.

Боковой зазор – регулирует ширину ящиков и расстояние между ними.

Показывать внутренние точки. Если поставить галочку, то на оси, где расположены «усы», точками будут показаны все значения. Так хорошо видно распределение внутри групп.

Показывать точки выбросов – отражать экстремальные значения.

Выбросы – это точки, выходящие за пределы 1,5 межквартильных размаха.

Показать средние метки – среднее арифметическое (крестики). Стоят по умолчанию, но можно скрыть.

Показать среднюю линию – только для различных категорий. Показывает изменения по категориям.

Если добавить линии, то изменения после эксперимента станут видны еще лучше. В справке написано, что соединяются медианы, но на графике почему-то соединяются средние. Чудеса.

Инклюзивная медиана или эксклюзивная медиана. Инклюзивная медиана включает в «ящик» квартильные значения , а эксклюзивная медиана не включает. При выборе «эксклюзивной медианы» верх и низ «ящика» соответствует средней между квартильным и следующим (от центра) значением. По умолчанию стоит «эксклюзивная». Пусть стоит дальше. Причем тут медиана, вообще не понял, – речь ведь про квартиль. Думал, криво перевели, но в английской версии те же названия. В общем, здесь лучше ничего не менять.

Своевременное использование диаграммы «ящик-усы» может дать весьма ценную и наглядную информацию. Аналитику, который использует специализированные программы или трудоемкие настройки Excel, будет очень приятно иметь такую диаграмму под рукой.

Как показано в ролике ниже, все делается очень быстро и просто.

Источник статьи: http://statanaliz.info/excel/diagrammy/diagramma-yashhik-s-usami-boxplot-v-excel-2016/

Ящик с усами как интерпретировать

Войти через uID

Существует множество способов представить числовые данные в графическом виде. И хотя каждый из этих способов имеет свои достоинства и недостатки, все они призваны для одной цели – визуализировать массив данных, – а потому имеют одинаковую ценность. Несмотря на это, от выбора способа представления данных зависит многое. Иными словами, насколько удачно вы сможете подобрать способ графической интерпретации данных, настолько аудитория сможет понять цель того, что вы пытаетесь показать этим.

Среди наиболее простых, но от этого не менее информативных методов, можно выделить ящичные диаграммы. Основная цель ящичной диаграммы – представить распределение значений, – а ее выгодным достоинством является возможность сравнения нескольких распределений одновременно. С другой стороны, внешний вид диаграммы, несмотря на свою незамысловатость, не столь прост в понимании, как это может показаться. Представляя данные в виде ящичных диаграмм, следует всегда учитывать уровень знаний аудитории. Текстовые пояснения или краткий экскурс помогут слушателям понять, что отображает диаграмма.

Читайте также:  Какую сделать стрижку красивую для средних волос

Содержание:

Что такое ящичная диаграмма?

Мне попадалось множество толкований того, что же такое ящичная диаграмма. Одни – слишком мудрёные и длинные. Человеку, не знакомому со статистикой на “ты”, понять их довольно сложно. Другие – короткие, емкие, но совершенно не точные. Поэтому, когда кто-то скажет, что это:

  • график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей или;
  • наглядный инструмент сравнения нескольких групп данных или;
  • быстрый способ изучения одного или нескольких наборов данных в графическом виде или;
  • что-либо еще.

то знайте – все это о ящичной диаграмме.

Конечно же, с одинаковым успехом можно то же сказать и о гистограммах, точечных диаграммах, интервальных графиках и еще десятке других диаграмм, но к ящичной диаграмме это тоже относится. Именно такое определение ей часто дают.

Лично мне больше всего нравится следующее определение: метод графического изображения набора данных через их квартили. Предлагаю на этом определении и остановиться. А если у вас есть определение получше, то смело пишите его в комментариях к этой статье.

Синонимы названия

Ящичную диаграмму еще называют:

  • ящичковой диаграммой (вероятно, чтобы более ласково отображать данные);
  • диаграммой размахов (исходя из того, что мы видим на графике);
  • ящиком с усами или диаграммой “ящик с усами” (исходя из того, из чего состоит график);
  • диаграммой Тьюки (по фамилии создателя).

Также вы можете встретиться с названием диаграммы на английском языке:

  • boxplot или box plot;
  • box-and-whiskers diagram;

Что показывает ящичная диаграмма?

Простейшая ящичная диаграмма выглядит следующим образом:

На ней мы видим весь диапазон наблюдаемых значений – все 100%. 50% из них помещены в “ящик”, остальные 50% – представлены “хвостами” или “усами”. Конец нижнего хвоста представляет наименьшее из наблюдаемых значений (min), конец верхнего – наибольшее (max). От края нижнего хвоста до края верхнего – диаграмма нам показывает размах (range).

Нижняя стенка ящика (перпендикулярная хвосту) представляет первый квартиль (Q1). Соответственно верхняя стенка ящика (перпендикулярная хвосту) – третий квартиль (Q3). Расстояние между первым и третьим квартилями называется межквартильным или интерквартильным размахом (IQR).

В центре ящика проходит еще одна линия, перпендикулярная хвостам – это медиана (Q2). Стороны ящика, параллельные хвостам, не отображают ничего, кроме целостности ящика, разумеется. Если на вашем графике встречаются звездочки, как на диаграмме выше, то знайте, это – выброс (outlier).

Кроме того, с помощью ящичной диаграммы можно визуально оценить асимметрию. Индикатором асимметричности распределения могут служить хвосты различной длинны или половины ящика, существенно отличающиеся в размере. Это выгодно отличает данный вид диаграмм при сравнении двух и больше серий данных.

Как построить ящичную диаграмму вручную?

Учитывая возможности современных статистических пакетов анализа данных, построение ящичных диаграммы не составляет труда. Но с теоретической точки зрения, стоит коротко рассмотреть принципы построения вручную.

Попробуем изобразить следующий набор данных: 231, 248, 228, 256, 252, 262, 216, 253, 254, 257, 244, 238, – в виде диаграммы “ящик с усами”. Для этого:

  • Ранжируем наблюдаемые значения в порядке возрастания: 216, 228, 231, 238, 244, 248, 252, 253, 254, 256, 257, 262.
  • Определим минимальное и максимальное значения: 216 и 262 соответственно.
  • Определим медиану – 250.
  • Находим первый и третий квартили: 232 и 255.
  • Рисуем шкалу и откладываем на ней значения, найденные в пунктах 2, 3 и 4. Используя значения медианы и квартилей, рисуем ящик. Соединив минимальное значение с первым квартилем и максимальное с третьим линиями, получаем хвосты.

В результате всех этих действий получаем графическое изображение нашего набора данных через их квартили:

Как построить ящичную диаграмму в пакете “101 инструмент вашего проекта шести сигм”?

Перенесем все данные на лист инструмента “34_Boxplot Tool”. Этот инструмент вы найдете в папке Measure пакета “101 инструмент вашего проекта шести сигм”. Как только данные будут внесены на лист, вы получите ящичную диаграмму:

Как построить ящичную диаграмму в программе Minitab?

Теперь давайте сделаем все тоже самое в пакете Minitab. Для начала нам следует внести данные в программу. С этим нам поможет один из 4-х способов.

  1. В меню Graph выбираем Boxplot.
  2. В появившемся окне выбираем One Y / Simple и нажимаем Ok.

  • В поле Graph variables указываем колонку с данными и нажимаем Ok.
  • Получаем нашу диаграмму:

    Она несколько отличается от той, что мы нарисовали вручную. Для того, чтобы наша диаграмма совпадала с той, которая у нас получилась вручную:

    1. Кликаем по ней дважды в окне Session.
    2. В появившемся окне наводим курсор на вертикальную ось и снова кликаем дважды.
    3. О открывшемся окне устанавливаем флажок напротив опции Transpose value and category scales:

  • Нажимаем Ok и voila:
  • Ящичные диаграммы довольно часто отображают “лежа”, но главное, что их суть от этого не меняется. Просто в некоторых случаях так удобнее представлять данные.

    Читайте также:  Удобные для укладки стрижки с челкой

    Что еще может boxplot?

    Вооружившись серьезным пакетом статистической обработки данных, было бы интересно разобраться, что еще можно добавить к нашему ящику и его усам. Чтобы оценить все потенциальные возможности данного способа графического представления данных, воспользуемся опцией Data View.

    1. Еще раз перейдем в меню построения графика.
    2. Для этого:
      • вы можете повторить весь алгоритм, описанный выше (Graph \ Boxplot \ One Y \ Simple);
      • использовать иконку вызова последнего диалога (Edit Last Dialog) или;
      • воспользоваться комбинацией клавиш Ctrl + E.
    3. В открывшемся окне нажмите кнопку Data View.

  • Если вы сделали все правильно, то перед вами появится список всех доступных опций для нанесения на диаграмму:
    • доверительный интервал медианы в виде ящика;
    • интерквартильный размах в виде ящика (нанесен по умолчанию);
    • размах в виде ящика;
    • идентификация выбросов (установлена по умолчанию);
    • индивидуальные значения;
    • символ медианы – точка;
    • соединительная линия для медиан (появится при нанесении нескольких ящиков / сравнении нескольких групп данных);
    • среднее значение – точка;
    • соединительная линия средних значений (появится при нанесении нескольких ящиков / сравнении нескольких групп данных).

  • Попробуйте выбрать все доступные опции, но не пугайтесь, когда вместо ящичной диаграммы, получите вот это:
  • В большинстве случаев настроек по умолчанию достаточно. Не стоит перегружать диаграмму лишними сведениями – это лишь затруднит ее понимание. С другой стороны, удачно варьируя отмеченные пункты, можно представить данные в новом свете.

    Как сравнивать данные с помощью ящичных диаграмм?

    Сравнение предполагает, что у вас минимум две серии наблюдений: две выборки или некие наблюдения, которые вы можете поделить на категории. Чтобы посмотреть, как это работает, сгенерируем два набора по 50 значений, подчиняющихся нормальному закону распределения:

    • Среднее значение 25, стандартное отклонение 2.
    • Среднее значение 27, стандартное отклонение 3.

    Теперь, чтобы сравнить их с помощью ящичных диаграмм:

    1. В меню Graph выберите Boxplot.
    2. В появившемся окне выбирите Multiple Y / Simple и нажмите Ok.
    3. Укажите обе колонки с наблюдениями в поле Graph variables и снова нажмите Ok.

    На диаграмме четко видно, что значения из группы C1 имеют меньший размах, чем в C2. Также четко видно, что медиана C2 имеет большее числовое значение. Что же касается C1, то можно заметить, что значения выборки распределены менее симметрично. Также мы видим один выброс в колонке C2.

    Чтобы подчеркнуть все вышесказанное, снова прибегнем к опции Data View. Вы можете использовать алгоритм, описанный ранее, или просто:

    1. Дважды кликнуть на диаграмму.
    2. Нажать на кнопку Add Item в верхней части окна.
    3. Выбрать опцию Data Display.

    Более наглядно представить разницу в размахе наблюдений нам поможет Range Box. Установив флажок напротив этой опции, вы поместите всю диаграмму в еще один ящик. В результате, сравнивать придется размеры ящиков вместо хвостов. Следовательно, разница будет более наглядна.

    Чтобы подчеркнуть разность значений медиан, воспользуемся опцией Median connect line. Это даст возможность сравнивать медианы не относительно шкалы или положения на диаграмме, а относительно соединительной линии. Наклон линии подчеркивает разность значений медиан.

    Чтобы сфокусировать внимание на асимметрии распределения (если самих хвостов недостаточно), можно воспользоваться следующими опциями:

    • Median confidence interval box – доверительный интервал медианы.
    • Mean symbol – среднее арифметическое значение, чтобы сравнить с положением медианы.

    Вы также можете отобразить все наблюдаемые значения на диаграмме (Individual symbols) – это позволит указать скопления значений. Вместе с тем, использование этой опции очень сильно “утяжеляет” диаграмму.

    Работа с различными группами данных Minitab

    Ящичные диаграммы помогают сравнивать группы данных и делать выводы. Поэтому немаловажным при работе в среде Minitab является умение группировать данные и представляет их в удобной форме. Этому нам и придется научиться.

    Давайте создадим необходимые для этого данные и представим их в различных форматах. Создайте 4 набора данных по 20 значений, подчиняющихся нормальному закону распределения:

    • В колонке С1 со средним 48 и стандартным отклонением 2.
    • В колонке С2 со средним 47 и стандартным отклонением 3.
    • В колонке С3 со средним 46 и стандартным отклонением 2.
    • В колонке С4 со средним 45 и стандартным отклонением 3.

    В результате на листе с данными у вас окажется таблица из 4-х колонок:

    Так могли бы выглядеть результаты измерения деталей, полученных из двух гнезд двух пресс-форм. Или результаты измерения параметров деталей, произведенных двумя резцами на двух различных станках.

    В меню Graph \ Boxplot вам доступны следующие возможности:

    1. Представить каждую серию наблюдаемых значений на отдельной диаграмме (One Y \ Simple).
    2. Представить каждую серию наблюдаемых значений на отдельной диаграмме с возможностью выделить группы (One Y \ With Groups).
    3. Представить все серии наблюдаемых значений на общей диаграмме (Multiple Y’s \ Simple).
    4. Представить все серии данных на одной диаграмме, выделив группы (Multiple Y’s With Groups).

    До этого момента мы уже использовали One Y \ Simple и Multiple Y’s \ Simple. Первая опция удобна для построения графика для одного набора значений. Если попробовать сравнить данные в колонках С1-С4 с ее помощью, то мы получим 4 отдельные диаграммы. Согласитесь, это – не самый удобный подход к сравнению данных. Чтобы разместить все ящики на одном графике, выберите опцию Multiple Y’s \ Simple и задайте в поле Graph variables колонки С1-С4. Нажав Ok, получим один график, на котором намного легче сравнить все группы данных между собой.

    Читайте также:  Профессиональная укладка короткой стрижки

    Однако, если данные представлены в другом формате, нам может быть недостаточно описанных выше алгоритмов. Давайте соединим наши колонки в одну используя функцию Data \ Stack \ Columns. Названия колонок используем в качестве категорий и разместим в соседней колонке. Чтобы узнать больше о функции соединения колонок, используйте соответствующий One-Point Lesson.

    Теперь все наши данные находятся в одной колонке, а их описание – в другой:

    Словно вам в руки попали данные с производства – все вперемешку. Чтобы построить ящичные диаграммы, используя данные в таком формате, в меню Graph \ Boxplot выберите One Y \ With Groups. Теперь в появившемся окне нам доступно дополнительное поле – Categorical variables for grouping. Это поле отвечает за группирование данных по определенному признаку или критерию.

    Какие признаки или критерии можно задавать? Критерием может служить колонка рабочего листа. Например, колонка С6, как показано на рисунке выше. Количество значений в этой колонке должно совпадать с количеством наблюдений. Критерии могут быть как как числовыми, так и буквенными.

    1. В поле Graph variable укажите переменные.
    2. В поле Categorical variables for grouping (1-4, outermost first) укажите колонку с категориями. Обратите внимание: можно указать до четырех колонок с категориями, причем их порядок влияет на группировку данных в диаграммы. Т.е. первая заданная колонка с атрибутом будет расценена как основная, а последняя, соответственно, как второстепенная.
    3. Нажмите Ok.

    Полученная диаграмма полностью соответствует той, которую мы получили из данных, размещенных в четырех разных колонках, с тем лишь исключением, что программа отобразила ящики в обратном порядке:

    Теперь снова вернемся к нашим 4-м колонкам и соединим их попарно: колонку С1 и С2, а затем С3 и С4:

    Если вызвать окно с помощью Graph \ Boxplot \ One Y \ With Groups и задать обе колонки с наблюдениями:

    То для каждой из них программа построит отдельный график. Однако, если вместо One Y \ With Groups, выбрать Multiple Y’s \ With Groups и задать в диалоговом окне все тоже самое:

    То получим полное соответствие ожидаемому результату:

    И еще немного настроек, доступных в программе Minitab

    До сих пор мы разбирали различные возможности программы для того, чтобы соединить несколько ящиков на одном графике. Теперь давайте посмотрим, как сделать наоборот: построить несколько диаграмм, используя различные признаки или критерии.

    Для этого нам понадобится все те же данные и опция Graph \ Boxplot \ One Y \ Simple:

      В поле Graph variables зададим колонку С7 – это набор значений, который мы получили, соединив колонки С1 и С2 в одну.

    Затем нажимаем кнопку Multiple Graphs и на вкладке By variables указываем колонку С9 в строке By variables with groups in separate panels:

  • Нажимаем Ok и оцениваем полученный результат:
  • Если же вернуться назад к пункту 2 и на вкладке By variables указать колонку С9 в строке By variables with groups in separate graphs:

    То программа разделит данные на две независимые диаграммы. Вот одна из них, в которую программа выделила данные, соответствующие критерию 1 в колонке С9:

    Теперь перейдем в Graph \ Boxplot \ Multiple Y’s \ Simple:

    1. В поле Graph variables зададим колонки С7 и С8, полученные путем соединения наблюдений в колонках C1, C2 и С3, С4.
    2. Затем нажимаем кнопку Multiple Graphs и на вкладке By variables указываем колонку C9 в строке By variables with groups in separate panels:

  • Нажимаем Ok и оцениваем полученный результат:
  • Как видите, на одной части графика у нас диаграммы из обеих колонок, соответствующие критерию “1”, а на второй – критерию “2”. Как и в предыдущем случае, указав на вкладке By variables колонку С9 в строке By variables with groups in separate graphs, мы разделим данные на две независимые диаграммы. Вот одна из них, в которую программа выделила наблюдения из колонок С7 и С8, по критерию “1” из колонки С9:

    Таким образом, мы всегда можем выбрать часть данных из одной или нескольких колонок для сравнения, используя заданный критерий или атрибут.

    На этом краткий экскурс по ящичным диаграммам, их свойствам, а также возможностям программного обеспечения для их построения можно считать закрытым. И если вы дочитали эту публикацию, то, наверное, она вам понравилась. Буду рад отзыву или вашим замечаниям. А может быть у вас есть задача или проблема, в решении которой эта статья вам не дала всех ответов? Поле для комментариев всегда к вашим услугам.

    Источник статьи: http://sixsigmaonline.ru/baza-znanij/22-1-0-137

    Adblock
    detector