Ящик с усами интерпретация
Войти через uID
Существует множество способов представить числовые данные в графическом виде. И хотя каждый из этих способов имеет свои достоинства и недостатки, все они призваны для одной цели – визуализировать массив данных, – а потому имеют одинаковую ценность. Несмотря на это, от выбора способа представления данных зависит многое. Иными словами, насколько удачно вы сможете подобрать способ графической интерпретации данных, настолько аудитория сможет понять цель того, что вы пытаетесь показать этим.
Среди наиболее простых, но от этого не менее информативных методов, можно выделить ящичные диаграммы. Основная цель ящичной диаграммы – представить распределение значений, – а ее выгодным достоинством является возможность сравнения нескольких распределений одновременно. С другой стороны, внешний вид диаграммы, несмотря на свою незамысловатость, не столь прост в понимании, как это может показаться. Представляя данные в виде ящичных диаграмм, следует всегда учитывать уровень знаний аудитории. Текстовые пояснения или краткий экскурс помогут слушателям понять, что отображает диаграмма.
Содержание:
Что такое ящичная диаграмма?
Мне попадалось множество толкований того, что же такое ящичная диаграмма. Одни – слишком мудрёные и длинные. Человеку, не знакомому со статистикой на “ты”, понять их довольно сложно. Другие – короткие, емкие, но совершенно не точные. Поэтому, когда кто-то скажет, что это:
- график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей или;
- наглядный инструмент сравнения нескольких групп данных или;
- быстрый способ изучения одного или нескольких наборов данных в графическом виде или;
- что-либо еще.
то знайте – все это о ящичной диаграмме.
Конечно же, с одинаковым успехом можно то же сказать и о гистограммах, точечных диаграммах, интервальных графиках и еще десятке других диаграмм, но к ящичной диаграмме это тоже относится. Именно такое определение ей часто дают.
Лично мне больше всего нравится следующее определение: метод графического изображения набора данных через их квартили. Предлагаю на этом определении и остановиться. А если у вас есть определение получше, то смело пишите его в комментариях к этой статье.
Синонимы названия
Ящичную диаграмму еще называют:
- ящичковой диаграммой (вероятно, чтобы более ласково отображать данные);
- диаграммой размахов (исходя из того, что мы видим на графике);
- ящиком с усами или диаграммой “ящик с усами” (исходя из того, из чего состоит график);
- диаграммой Тьюки (по фамилии создателя).
Также вы можете встретиться с названием диаграммы на английском языке:
- boxplot или box plot;
- box-and-whiskers diagram;
Что показывает ящичная диаграмма?
Простейшая ящичная диаграмма выглядит следующим образом:
На ней мы видим весь диапазон наблюдаемых значений – все 100%. 50% из них помещены в “ящик”, остальные 50% – представлены “хвостами” или “усами”. Конец нижнего хвоста представляет наименьшее из наблюдаемых значений (min), конец верхнего – наибольшее (max). От края нижнего хвоста до края верхнего – диаграмма нам показывает размах (range).
Нижняя стенка ящика (перпендикулярная хвосту) представляет первый квартиль (Q1). Соответственно верхняя стенка ящика (перпендикулярная хвосту) – третий квартиль (Q3). Расстояние между первым и третьим квартилями называется межквартильным или интерквартильным размахом (IQR).
В центре ящика проходит еще одна линия, перпендикулярная хвостам – это медиана (Q2). Стороны ящика, параллельные хвостам, не отображают ничего, кроме целостности ящика, разумеется. Если на вашем графике встречаются звездочки, как на диаграмме выше, то знайте, это – выброс (outlier).
Кроме того, с помощью ящичной диаграммы можно визуально оценить асимметрию. Индикатором асимметричности распределения могут служить хвосты различной длинны или половины ящика, существенно отличающиеся в размере. Это выгодно отличает данный вид диаграмм при сравнении двух и больше серий данных.
Как построить ящичную диаграмму вручную?
Учитывая возможности современных статистических пакетов анализа данных, построение ящичных диаграммы не составляет труда. Но с теоретической точки зрения, стоит коротко рассмотреть принципы построения вручную.
Попробуем изобразить следующий набор данных: 231, 248, 228, 256, 252, 262, 216, 253, 254, 257, 244, 238, – в виде диаграммы “ящик с усами”. Для этого:
- Ранжируем наблюдаемые значения в порядке возрастания: 216, 228, 231, 238, 244, 248, 252, 253, 254, 256, 257, 262.
- Определим минимальное и максимальное значения: 216 и 262 соответственно.
- Определим медиану – 250.
- Находим первый и третий квартили: 232 и 255.
- Рисуем шкалу и откладываем на ней значения, найденные в пунктах 2, 3 и 4. Используя значения медианы и квартилей, рисуем ящик. Соединив минимальное значение с первым квартилем и максимальное с третьим линиями, получаем хвосты.
В результате всех этих действий получаем графическое изображение нашего набора данных через их квартили:
Как построить ящичную диаграмму в пакете “101 инструмент вашего проекта шести сигм”?
Перенесем все данные на лист инструмента “34_Boxplot Tool”. Этот инструмент вы найдете в папке Measure пакета “101 инструмент вашего проекта шести сигм”. Как только данные будут внесены на лист, вы получите ящичную диаграмму:
Как построить ящичную диаграмму в программе Minitab?
Теперь давайте сделаем все тоже самое в пакете Minitab. Для начала нам следует внести данные в программу. С этим нам поможет один из 4-х способов.
- В меню Graph выбираем Boxplot.
- В появившемся окне выбираем One Y / Simple и нажимаем Ok.
Получаем нашу диаграмму:
Она несколько отличается от той, что мы нарисовали вручную. Для того, чтобы наша диаграмма совпадала с той, которая у нас получилась вручную:
- Кликаем по ней дважды в окне Session.
- В появившемся окне наводим курсор на вертикальную ось и снова кликаем дважды.
- О открывшемся окне устанавливаем флажок напротив опции Transpose value and category scales:
Ящичные диаграммы довольно часто отображают “лежа”, но главное, что их суть от этого не меняется. Просто в некоторых случаях так удобнее представлять данные.
Что еще может boxplot?
Вооружившись серьезным пакетом статистической обработки данных, было бы интересно разобраться, что еще можно добавить к нашему ящику и его усам. Чтобы оценить все потенциальные возможности данного способа графического представления данных, воспользуемся опцией Data View.
- Еще раз перейдем в меню построения графика.
- Для этого:
- вы можете повторить весь алгоритм, описанный выше (Graph \ Boxplot \ One Y \ Simple);
- использовать иконку вызова последнего диалога (Edit Last Dialog) или;
- воспользоваться комбинацией клавиш Ctrl + E.
- В открывшемся окне нажмите кнопку Data View.
- доверительный интервал медианы в виде ящика;
- интерквартильный размах в виде ящика (нанесен по умолчанию);
- размах в виде ящика;
- идентификация выбросов (установлена по умолчанию);
- индивидуальные значения;
- символ медианы – точка;
- соединительная линия для медиан (появится при нанесении нескольких ящиков / сравнении нескольких групп данных);
- среднее значение – точка;
- соединительная линия средних значений (появится при нанесении нескольких ящиков / сравнении нескольких групп данных).
В большинстве случаев настроек по умолчанию достаточно. Не стоит перегружать диаграмму лишними сведениями – это лишь затруднит ее понимание. С другой стороны, удачно варьируя отмеченные пункты, можно представить данные в новом свете.
Как сравнивать данные с помощью ящичных диаграмм?
Сравнение предполагает, что у вас минимум две серии наблюдений: две выборки или некие наблюдения, которые вы можете поделить на категории. Чтобы посмотреть, как это работает, сгенерируем два набора по 50 значений, подчиняющихся нормальному закону распределения:
- Среднее значение 25, стандартное отклонение 2.
- Среднее значение 27, стандартное отклонение 3.
Теперь, чтобы сравнить их с помощью ящичных диаграмм:
- В меню Graph выберите Boxplot.
- В появившемся окне выбирите Multiple Y / Simple и нажмите Ok.
- Укажите обе колонки с наблюдениями в поле Graph variables и снова нажмите Ok.
На диаграмме четко видно, что значения из группы C1 имеют меньший размах, чем в C2. Также четко видно, что медиана C2 имеет большее числовое значение. Что же касается C1, то можно заметить, что значения выборки распределены менее симметрично. Также мы видим один выброс в колонке C2.
Чтобы подчеркнуть все вышесказанное, снова прибегнем к опции Data View. Вы можете использовать алгоритм, описанный ранее, или просто:
- Дважды кликнуть на диаграмму.
- Нажать на кнопку Add Item в верхней части окна.
- Выбрать опцию Data Display.
Более наглядно представить разницу в размахе наблюдений нам поможет Range Box. Установив флажок напротив этой опции, вы поместите всю диаграмму в еще один ящик. В результате, сравнивать придется размеры ящиков вместо хвостов. Следовательно, разница будет более наглядна.
Чтобы подчеркнуть разность значений медиан, воспользуемся опцией Median connect line. Это даст возможность сравнивать медианы не относительно шкалы или положения на диаграмме, а относительно соединительной линии. Наклон линии подчеркивает разность значений медиан.
Чтобы сфокусировать внимание на асимметрии распределения (если самих хвостов недостаточно), можно воспользоваться следующими опциями:
- Median confidence interval box – доверительный интервал медианы.
- Mean symbol – среднее арифметическое значение, чтобы сравнить с положением медианы.
Вы также можете отобразить все наблюдаемые значения на диаграмме (Individual symbols) – это позволит указать скопления значений. Вместе с тем, использование этой опции очень сильно “утяжеляет” диаграмму.
Работа с различными группами данных Minitab
Ящичные диаграммы помогают сравнивать группы данных и делать выводы. Поэтому немаловажным при работе в среде Minitab является умение группировать данные и представляет их в удобной форме. Этому нам и придется научиться.
Давайте создадим необходимые для этого данные и представим их в различных форматах. Создайте 4 набора данных по 20 значений, подчиняющихся нормальному закону распределения:
- В колонке С1 со средним 48 и стандартным отклонением 2.
- В колонке С2 со средним 47 и стандартным отклонением 3.
- В колонке С3 со средним 46 и стандартным отклонением 2.
- В колонке С4 со средним 45 и стандартным отклонением 3.
В результате на листе с данными у вас окажется таблица из 4-х колонок:
Так могли бы выглядеть результаты измерения деталей, полученных из двух гнезд двух пресс-форм. Или результаты измерения параметров деталей, произведенных двумя резцами на двух различных станках.
В меню Graph \ Boxplot вам доступны следующие возможности:
- Представить каждую серию наблюдаемых значений на отдельной диаграмме (One Y \ Simple).
- Представить каждую серию наблюдаемых значений на отдельной диаграмме с возможностью выделить группы (One Y \ With Groups).
- Представить все серии наблюдаемых значений на общей диаграмме (Multiple Y’s \ Simple).
- Представить все серии данных на одной диаграмме, выделив группы (Multiple Y’s With Groups).
До этого момента мы уже использовали One Y \ Simple и Multiple Y’s \ Simple. Первая опция удобна для построения графика для одного набора значений. Если попробовать сравнить данные в колонках С1-С4 с ее помощью, то мы получим 4 отдельные диаграммы. Согласитесь, это – не самый удобный подход к сравнению данных. Чтобы разместить все ящики на одном графике, выберите опцию Multiple Y’s \ Simple и задайте в поле Graph variables колонки С1-С4. Нажав Ok, получим один график, на котором намного легче сравнить все группы данных между собой.
Однако, если данные представлены в другом формате, нам может быть недостаточно описанных выше алгоритмов. Давайте соединим наши колонки в одну используя функцию Data \ Stack \ Columns. Названия колонок используем в качестве категорий и разместим в соседней колонке. Чтобы узнать больше о функции соединения колонок, используйте соответствующий One-Point Lesson.
Теперь все наши данные находятся в одной колонке, а их описание – в другой:
Словно вам в руки попали данные с производства – все вперемешку. Чтобы построить ящичные диаграммы, используя данные в таком формате, в меню Graph \ Boxplot выберите One Y \ With Groups. Теперь в появившемся окне нам доступно дополнительное поле – Categorical variables for grouping. Это поле отвечает за группирование данных по определенному признаку или критерию.
Какие признаки или критерии можно задавать? Критерием может служить колонка рабочего листа. Например, колонка С6, как показано на рисунке выше. Количество значений в этой колонке должно совпадать с количеством наблюдений. Критерии могут быть как как числовыми, так и буквенными.
- В поле Graph variable укажите переменные.
- В поле Categorical variables for grouping (1-4, outermost first) укажите колонку с категориями. Обратите внимание: можно указать до четырех колонок с категориями, причем их порядок влияет на группировку данных в диаграммы. Т.е. первая заданная колонка с атрибутом будет расценена как основная, а последняя, соответственно, как второстепенная.
- Нажмите Ok.
Полученная диаграмма полностью соответствует той, которую мы получили из данных, размещенных в четырех разных колонках, с тем лишь исключением, что программа отобразила ящики в обратном порядке:
Теперь снова вернемся к нашим 4-м колонкам и соединим их попарно: колонку С1 и С2, а затем С3 и С4:
Если вызвать окно с помощью Graph \ Boxplot \ One Y \ With Groups и задать обе колонки с наблюдениями:
То для каждой из них программа построит отдельный график. Однако, если вместо One Y \ With Groups, выбрать Multiple Y’s \ With Groups и задать в диалоговом окне все тоже самое:
То получим полное соответствие ожидаемому результату:
И еще немного настроек, доступных в программе Minitab
До сих пор мы разбирали различные возможности программы для того, чтобы соединить несколько ящиков на одном графике. Теперь давайте посмотрим, как сделать наоборот: построить несколько диаграмм, используя различные признаки или критерии.
Для этого нам понадобится все те же данные и опция Graph \ Boxplot \ One Y \ Simple:
- В поле Graph variables зададим колонку С7 – это набор значений, который мы получили, соединив колонки С1 и С2 в одну.
Затем нажимаем кнопку Multiple Graphs и на вкладке By variables указываем колонку С9 в строке By variables with groups in separate panels:
Если же вернуться назад к пункту 2 и на вкладке By variables указать колонку С9 в строке By variables with groups in separate graphs:
То программа разделит данные на две независимые диаграммы. Вот одна из них, в которую программа выделила данные, соответствующие критерию 1 в колонке С9:
Теперь перейдем в Graph \ Boxplot \ Multiple Y’s \ Simple:
- В поле Graph variables зададим колонки С7 и С8, полученные путем соединения наблюдений в колонках C1, C2 и С3, С4.
- Затем нажимаем кнопку Multiple Graphs и на вкладке By variables указываем колонку C9 в строке By variables with groups in separate panels:
Как видите, на одной части графика у нас диаграммы из обеих колонок, соответствующие критерию “1”, а на второй – критерию “2”. Как и в предыдущем случае, указав на вкладке By variables колонку С9 в строке By variables with groups in separate graphs, мы разделим данные на две независимые диаграммы. Вот одна из них, в которую программа выделила наблюдения из колонок С7 и С8, по критерию “1” из колонки С9:
Таким образом, мы всегда можем выбрать часть данных из одной или нескольких колонок для сравнения, используя заданный критерий или атрибут.
На этом краткий экскурс по ящичным диаграммам, их свойствам, а также возможностям программного обеспечения для их построения можно считать закрытым. И если вы дочитали эту публикацию, то, наверное, она вам понравилась. Буду рад отзыву или вашим замечаниям. А может быть у вас есть задача или проблема, в решении которой эта статья вам не дала всех ответов? Поле для комментариев всегда к вашим услугам.
Источник статьи: http://sixsigmaonline.ru/baza-znanij/22-1-0-137