Меню

Ящики с усами это

Ящик с усами

Ящик с усами, диаграмма размаха (англ. box-and-whiskers diagram or plot, box plot ) — график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей.

Такой вид диаграммы в удобной форме показывает медиану (или, если нужно, среднее), нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы. Несколько таких ящиков можно нарисовать бок о бок, чтобы визуально сравнивать одно распределение с другим; их можно располагать как горизонтально, так и вертикально. Расстояния между различными частями ящика позволяют определить степень разброса (дисперсии) и асимметрии данных и выявить выбросы.

Содержание

Компактность представления информации

График «ящик с усами», или «ящичковая диаграмма», был разработан Джоном Тьюки в 1970-х годах. По сути, ящик с усами — это быстрый способ изучения одного или нескольких наборов данных в графическом виде. Этот график может показаться более примитивным, чем, например, гистограммы, но он имеет некоторые преимущества. Он занимает меньше места и поэтому особенно полезен для сравнения распределений между несколькими группами или наборами данных. Кроме того, ящик с усами в своей первоначальной форме прост для построения.

На графике 2 приведены два графических представления распределения одной и той же случайной величины. Сверху показана плотность распределения, а снизу ящик с усами. Видно, что ящик с усами более компактный и по нему легко можно оценить медианы, квантили, дисперсию и асимметрию в данных, а также выявить выбросы. Асимметрию данных можно увидеть не только по медиане, смещённой к какому-либо концу ящика, но и по разной длине усов, выходящих из ящика.

График «ящик с усами» очень прост для понимания и именно поэтому часто используется в различных публикациях для визуализации данных.

Построение

Границами ящика служат первый и третий квартили (25-й и 75-й процентили соответственно), линия в середине ящика — медиана (50-й процентиль). Концы усов — края статистически значимой выборки (без выбросов), и они могут определяться несколькими способами. Наиболее распространённые значения, определяющие длину «усов»:

  • Минимальное и максимальное наблюдаемые значения данных по выборке (в этом случае выбросы отсутствуют);
  • Разность первого квартиля и полутора межквартильных расстояний; сумма третьего квартиля и полутора межквартильных расстояний. В общем виде эта формула имеет вид
  • Среднее арифметическое по выборке ± одно стандартное отклонение; [источник не указан 1684 дня]
  • 9-й и 91-й процентили;
  • 2-й и 98-й процентили.

Данные, выходящие за границы усов (выбросы), отображаются на графике в виде точек, маленьких кружков или звёздочек. Иногда на графике отмечают среднее арифметическое и его доверительный интервал («зарубка» на ящике). Иногда зарубками обозначают доверительный интервал для медианы.

В связи с тем, что не существует единого общего согласия относительно того, как конкретно строить «ящик с усами», при виде такого графика необходимо искать информацию в сопроводительном тексте относительно того, по каким параметрам ящик с усами строился.

Модификации ящика с усами

Несмотря на свою простоту и удобство, первоначальная форма ящика с усами обладает и некоторыми недостатками. Один из таких существенных недостатков — отсутствие на графике информации о количестве наблюдений по выборке. Действительно, ящик с усами позволяет сравнить медианы, квартили, минимумы и максимумы по различным выборкам, но если мы захотим сделать вывод об общей медиане по всей совокупности выборок, то мы не сможем этого сделать, не прибегая к расчётам на исходных данных. В 1978 году первоначальная форма ящика с усами была модифицирована МакГиллом, Ларсеном и Тьюки. Они предложили учитывать размер выборочной совокупности, рисуя ящики разного размера, а также изобразили на графике доверительный интервал для медиан в виде расходящихся клиньев. Чем больше ящик по размерам, тем больше количество наблюдений в выборке, по которой строился этот ящик. Что касается доверительного интервала, то он представляет собой выемки на каждом из ящиков; в случае, если получившиеся выемки разных ящиков не пересекаются, их медианы статистически значимо различаются.

Читайте также:  Мужские стрижки этого года 2017

Иная модификация получила название «histplot» (сокр. от «histogram plot», с англ. — «график-гистограмма»). Теперь на графике отображаются плотности распределения по трём точкам: медиане, первому и третьему квартилю. Соответственно, вместо прямоугольника, «ящик» теперь представляет собой две равнобедренные трапеции, имеющие смежное основание.

Дальнейшее изменение получило название «vaseplot» (с англ. — «график-ваза») из-за визуального сходства «ящика» с вазой. На данном графике производится отображение всех плотностей вероятностей от первого до третьего квартиля. Затемнённые области представляют собой доверительный интервал медианы.

Ссылки

  • Frigge, M.; Hoaglin, D. C.; Iglewicz, B. (1989). «Some Implementations of the Boxplot». The American Statistician. 43 (1): 50—54. DOI:10.2307/2685173. JSTOR2685173.
  • Benjamini, Y. (1988). «Opening the Box of a Boxplot». The American Statistician. 42 (4): 257—262. DOI:10.2307/2685133. JSTOR2685133.
  • Поп-математика для взрослых детей
  • Диаграмма размаха

Что такое wiki2.info Вики является главным информационным ресурсом в интернете. Она открыта для любого пользователя. Вики это библиотека, которая является общественной и многоязычной.

Основа этой страницы находится в Википедии. Текст доступен по лицензии CC BY-SA 3.0 Unported License.

Wikipedia® — зарегистрированный товарный знак организации Wikimedia Foundation, Inc. wiki2.info является независимой компанией и не аффилирована с Фондом Викимедиа (Wikimedia Foundation).

Источник статьи: http://wiki2.info/%D0%AF%D1%89%D0%B8%D0%BA_%D1%81_%D1%83%D1%81%D0%B0%D0%BC%D0%B8

Ящик с усами

Ящик с усами (англ. box-and-whiskers diagram or plot, box plot ) — график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей.

Такой вид диаграммы в удобной форме показывает медиану, нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы. Несколько таких ящиков можно нарисовать бок о бок, чтобы визуально сравнивать одно распределение с другим, их можно рисовать горизонтально, либо вертикально. Расстояния между различными частями ящика позволяют определить степень распространения (дисперсии) и асимметрии в данных, и выявить выбросы.

Содержание

Компактность представления информации

График ящик с усами или ящичковая диаграмма был разработан Джоном Тьюки в 1970-х годах. По сути, ящик с усами — это быстрый способ изучения одного или нескольких наборов данных в графическом виде. Этот график может показаться более примитивным, чем, например, оценка гистограммы, но он имеет некоторые преимущества. Он занимает меньше места, и поэтому особенно полезен для сравнения распределений между несколькими группами или наборами данных. Кроме того, ящик с усами в своей первоначальной форме прост для построения.

Если на третьем графике, где показаны плотности распределения, нельзя толком ничего рассмотреть и сравнить, то на четвертом графике, отображающем ящики с усами, легко можно оценить медианы, квартили, степень распространения (дисперсии) и асимметрии в данных, и выявить выбросы. Асимметрию данных можно увидеть не только по медиане, смещенной к какому-либо концу ящика, но и по разной длине усов, выходящих из ящика.

График ящик с усами очень прост для понимания и именно поэтому часто используется в различных публикациях для отображения данных.

Построение

В диаграмме ящик с усами сам «ящик» все время строится с использованием одних и тех же показателей: границами ящика служат первый и третий квартили (25 и 75 процентили соответственно), линия в середине ящика — медиана (50 процентиль). Но концы усов (статистически значимые наблюдения по выборке) могут определяться несколькими способами. Среди наиболее распространенных следует выделить следующие:

  • Минимальное и максимальное наблюдаемое значения данных по выборке (в этом случае выбросы отсутствуют);
  • Разность первого квартиля и 1,5 * интерквартильный размах; Сумма третьего квартиля и 1,5 * интерквартильный размах. В общем виде эта формула имеет вид
Читайте также:  Триммер для стрижки назначение

где X1 — нижняя граница уса, X2 — верхняя граница уса, Q1 — первый квартиль ,Q3 — третий квартиль , k — коэффициент, наиболее часто употребляемое значение которого = 1,5

  • Среднее арифметическое по выборке ± одно стандартное отклонение
  • 9 и 91 процентили
  • 2 и 98 процентили

Все данные,выходящие за границы усов являются выбросами и отображаются на графике в виде точек, маленьких кружков или звездочек. Иногда на графике также отмечают среднее арифметическое.

В связи с тем, что не существует единого общего согласия относительно того, что считать основным графиком ящика с усами, при виде такого графика необходимо искать информацию в сопроводительном тексте относительно того, по каким параметрам ящик с усами строился.

Модификации ящика с усами

Первоначальная форма ящика с усами хотя и отличается своей простотой и удобством, однако обладает и некоторыми недостатками. Один из таких существенных недостатков — отсутствие информации на графике о количестве наблюдений по выборке. Действительно ящик с усами позволяет сравнить медианы, квартили, минимумы и максимумы по различным выборкам, но если мы захотим сделать вывод о средней медиане в целом по всей совокупности выборок, то мы не сможем этого сделать не прибегая к данным. В 1978 году первоначальная форма ящика с усами была модифицирована МакГиллом, Ларсеном и Тьюки. Они предложили учитывать размер выборочной совокупности, рисуя ящики разного размера, а также изобразили на графике доверительный интервал для медиан в виде расходящихся клиньев. Чем больше ящик по размерам, тем больше количество наблюдений в выборке, по которой строился этот ящик. что касается доверительного интервала, то он представляет собой выемки на каждом из ящиков, в случае, если получившиеся выемки разных ящиков не пересекаются, их медианы статистически значимо различаются. Модифицированные ящики с усами изображены на Графике 5

Следующая модификация получила название Histplot (График 6)

Теперь на графике отображаются плотности распределения по 3 точкам: медиане, первому и третьему квартилю. Соответственно вместо прямоугольника «ящик» теперь представляет собой 2 равнобедренные трапеции, имеющие смежное основание.

Дальнейшее изменение получило название Vaseplot от сравнения ящика с вазой (График 7)

На данном графике происходит отображение всех плотностей вероятностей от первого до третьего квартиля. Серые области представляют собой доверительный интервал медианы.

Ссылки

  • (1989) «Some Implementations of the Boxplot». The American Statistician43 (1): 50–54. DOI:10.2307/2685173.
  • (1988) «Opening the Box of a Boxplot». The American Statistician42 (4): 257–262. DOI:10.2307/2685133.
  • Поп-математика для взрослых детей
  • При чем тут усы и ящики?
Статистические показатели
Описательная
статистика
Непрерывные
данные
Коэффициент сдвига Среднее (Арифметическое, Геометрическое, Гармоническое) · Медиана · Мода · Размах
Вариация Ранг · Среднеквадратическое отклонение · Коэффициент вариации · Квантиль (Дециль, Процентиль/Перцентиль/Центиль)
Моменты Математическое ожидание · Дисперсия · Асимметрия · Эксцесс
Дискретные
данные
Частота · Таблица контингентности
Статистический
вывод и
проверка
гипотез
Статистический
вывод
Доверительный интервал (Частотная вероятность) · Достоверный интервал (Байесовский вывод) · Статистическая значимость · Мета-анализ
Планирование
эксперимента
Генеральная совокупность · Планирование выборки · Районированная выборка · Репликация · Группировка · Чувствительность и специфичность
Объём выборки Статистическая мощность · Мера эффекта · Стандартная ошибка
Общая оценка Байесовская оценка решения · Метод максимального правдоподобия · Метод моментов нахождения оценок · Оценка минимального расстояния · Оценка максимального интервала
Статистические
критерии
Z-тест · t-критерий Стьюдента · Критерий Фишера · Критерий Пирсона (Хи-квадрат) · Критерий согласия Колмогорова · Тест Вальда · U-критерий Манна — Уитни · Критерий Уилкоксона · Критерий Краскела — Уоллиса · Критерий Кохрена · Критерий Лиллиефорса
Анализ выживания Функция выживания · Оценка Каплана — Мейера · Логранк-тест · Интенсивность отказов · Пропорциональная модель опасностей
КорреляцияКоэффициент корреляции Пирсона · Ранг корреляций (Коэффициент Спирмана для ранга корреляций, Коэффициент тау Кендалла для ранга корреляций) · Переменная смешивания
Линейные модели Основная линейная модель · Обобщённая линейная модель · Анализ вариаций · Ковариационный анализ
Регрессия Линейная · Нелинейная · Непараметрическая регрессия · Полупараметрическая регрессия · Логистическая регрессия
Читайте также:  Когда у кота начнут расти усы

Столбчатая диаграмма · Совмещённая диаграмма · Диаграмма управления · Лесная диаграмма · Гистограмма · Q-Q диаграмма · Диаграмма выполнения · Диаграмма разброса · Стебель-листья · Ящик с усами

Wikimedia Foundation . 2010 .

Смотреть что такое «Ящик с усами» в других словарях:

ящик-с-усами — Способ визуализации множества данных, измеренных в интервальной шкале. Часто применяется в разведочном анализе данных. Выглядит как прямоугольник, на котором представлены максимальное и минимальное значения выборки, ее нижний и верхний квартили,… … Словарь социологической статистики

Статистика — Гистограмма (метод графических изображений) У этого термина существуют и другие значения, с … Википедия

Среднее значение — Среднее значение числовая характеристика множества чисел или функций; некоторое число, заключённое между наименьшим и наибольшим из их значений. Содержание 1 Основные сведения 2 Иерархи … Википедия

Среднее степенное — У этого термина существуют и другие значения, см. среднее значение. Среднее степени d (или просто среднее степенное) набора положительных вещественных чисел определяется как При этом по непрерывности доопределяются следующие величины … Википедия

Среднее геометрическое — Средним геометрическим нескольких положительных вещественных чисел называется такое число, которым можно заменить каждое из этих чисел так, чтобы их произведение не изменилось. Более формально: Среднее геометрическое двух чисел также называется… … Википедия

Мода (статистика) — У этого термина существуют и другие значения, см. Мода (значения). Мода значение во множестве наблюдений, которое встречается наиболее часто. Случайная величина может не иметь моды. Иногда в совокупности встречается более чем одна мода (например … Википедия

Медиана (статистика) — В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете … Википедия

Моменты случайной величины — Момент случайной величины числовая характеристика распределения данной случайной величины. Содержание 1 Определения 2 Замечания … Википедия

Генеральная совокупность — Генеральная совокупность, генеральная выборка (от лат. generis общий, родовой)(в англ. терминологии population) совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.… … Википедия

Коэффициент асимметрии — в теории вероятностей величина, характеризующая асимметрию распределения данной случайной величины. Определение Пусть задана случайная величина , такая что . Пусть обозначает третий центральный момент: , а … Википедия

Источник статьи: http://dic.academic.ru/dic.nsf/ruwiki/1348420

Adblock
detector