Что такое правило межквартильного размаха?

Правило межквартильного размаха полезно при обнаружении выбросов. Выбросы — это отдельные значения, которые выходят за рамки общего шаблона набора данных. Это определение несколько расплывчато и субъективно, поэтому полезно иметь правило, которое следует применять при определении того, действительно ли точка данных является выбросом — именно здесь вступает в силу правило межквартильного диапазона.

Что такое межквартильный размах?

Любой набор данных можно описать с помощью пятизначного резюме. Эти пять чисел, которые дают вам информацию, необходимую для поиска шаблонов и выбросов, состоят из (в порядке возрастания):

  • Минимум или наименьшее значение набора данных
  • Первый квартиль Q 1 , который представляет четверть пути по списку все данные
  • Медиана набора данных, которая представляет собой среднюю точку всего списка данных.
  • Третий квартиль Q 3 , который представляет три четверти пути по списку всех данных.
  • Максимальное или самое высокое значение набора данных.

Эти пять чисел говорят человеку о его данных больше, чем можно было бы взглянуть на числа сразу, или, по крайней мере, сделать это намного проще. Например, диапазон, который представляет собой минимум, вычитаемый из максимума, является одним из индикаторов того, насколько разбросаны данные в наборе (примечание: диапазон очень чувствителен к выбросам — если выброс также является минимумом или максимумом, Диапазон не будет точным представлением ширины набора данных).

В противном случае диапазон было бы трудно экстраполировать. Межквартильный размах похож на диапазон, но менее чувствителен к выбросам. Межквартильный размах рассчитывается почти так же, как и размах. Все, что вам нужно сделать, чтобы найти его, — это вычесть первый квартиль из третьего квартиля:

IQR = Q 3 Q 1 .

Межквартильный диапазон показывает как распространяются данные о медиане. Он менее подвержен выбросам, чем диапазон, и поэтому может быть более полезным.

Использование межквартильного правила для поиска выбросов

Хотя они не часто сильно влияют на него, межквартильный размах можно использовать для обнаружения выбросов. Это делается с помощью следующих шагов:

  1. Рассчитайте межквартильный диапазон для данных.
  2. Умножьте межквартильный интервал диапазон (IQR) на 1,5 (константа, используемая для распознавания выбросов).
  3. Добавьте 1,5 x (IQR) к третьему квартилю. Любое число, превышающее это, является предполагаемым выбросом.
  4. Вычтите 1,5 x (IQR) из первого квартиля. Любое число меньше этого является предполагаемым выбросом.

Помните, что межквартильное правило — это всего лишь практическое правило, которое обычно выполняется, но не применяется в каждом случае. В общем, вы всегда должны следить за своим анализом выбросов, изучая результирующие выбросы, чтобы увидеть, имеют ли они смысл. Любые потенциальные выбросы, полученные с помощью метода интерквартильных, следует исследовать в контексте всего набора данных.

Пример проблемы межквартильного правила

См. на примере правило межквартильного размаха. Предположим, у вас есть следующий набор данных: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Сводка из пяти цифр для этого набора данных: минимум = 1, первый квартиль = 4, медиана = 7, третий квартиль = 10 и максимум = 17. Вы можете посмотреть на данные и автоматически сказать, что 17 является выбросом, но что говорит правило межквартильного диапазона?

Если бы вы вычислили межквартильный диапазон для этих данных, вы бы обнаружили, что он будет следующим:

Q 3 Q 1 = 10 — 4 = 6

Теперь умножьте свой ответ на 1,5, чтобы получить 1,5 x 6 = 9. На девять меньше, чем первый квартиль, это 4 — 9 = -5. Нет данных меньше этого. На девять больше, чем в третьем квартиле, это 10 + 9 = 19. Нет данных больше, чем это. Несмотря на то, что максимальное значение на пять больше, чем ближайшая точка данных, правило межквартильного диапазона показывает, что его, вероятно, не следует рассматривать как выброс для этого набора данных.

Оцените статью
recture.ru
Добавить комментарий