Что такое внутренние и внешние ограждения?

Одна из особенностей набора данных, которую важно определить, – это наличие каких-либо выбросов. Выбросы интуитивно воспринимаются как значения в нашем наборе данных, которые сильно отличаются от большинства остальных данных. Конечно, такое понимание выбросов неоднозначно. Насколько значение должно отличаться от остальных данных, чтобы считаться выбросом? Совпадает ли то, что один исследователь называет выбросом, с результатами другого? Чтобы обеспечить некоторую последовательность и количественную меру для определения выбросов, мы используем внутренние и внешние ограждения.

Чтобы найти внутренние и внешние ограждения набор данных, нам сначала понадобится еще несколько описательных статистических данных. Начнем с расчета квартилей. Это приведет к межквартильному размаху. Наконец, после этих расчетов мы сможем определить внутренние и внешние ограждения.

Квартили

Первые и третьи квартили являются частью пятизначного резюме любого набора количественных данных. Мы начинаем с поиска медианы или средней точки данных после того, как все значения перечислены в порядке возрастания. Значения меньше медианы соответствуют примерно половине данных. Мы находим медиану этой половины набора данных, и это первый квартиль.

Аналогичным образом мы теперь рассмотрим верхнюю половину набор данных. Если мы найдем медиану для этой половины данных, то получим третьи квартили. Эти квартили получили свое название от того факта, что они разбивают набор данных на четыре части или четверти равного размера. Другими словами, примерно 25% всех значений данных меньше первого квартиля. Аналогичным образом, примерно 75% значений данных меньше третьего квартиля.

Межквартильный диапазон

Далее нужно найти межквартильный размах (IQR). Это легче вычислить, чем первый квартиль q 1 и третий квартиль q 3 . Все, что нам нужно сделать, это взять разницу этих двух квартилей. Это дает нам формулу:

IQR = Q 3 Q 1

IQR сообщает нам, насколько распределена средняя половина нашего набора данных .

Найдите внутренние ограждения

Теперь мы можем найти внутренние ограждения. Начнем с IQR и умножим это число на 1,5. Затем мы вычитаем это число из первого квартиля. Мы также добавляем это число к третьему квартилю. Эти два числа образуют наше внутреннее ограждение.

Найдите внешние ограждения

Для внешних ограждений мы начинаем с IQR и умножьте это число на 3. Затем мы вычитаем это число из первого квартиля и прибавляем его к третьему квартилю. Эти два числа – наши внешние ограждения.

Обнаружение выбросов

Обнаружение выбросов теперь становится таким же простым, как определение того, где находятся значения данных по отношению к нашим внутренним и внешние заборы. Если отдельное значение данных более экстремально, чем любое из наших внешних ограждений, то это выброс и иногда его называют сильным выбросом. Если значение наших данных находится между соответствующей внутренней и внешней границей, то это значение является предполагаемым выбросом или умеренным выбросом. Мы увидим, как это работает, на примере ниже.

Пример

Предположим, что мы вычислили первый и третий квартили по нашим данным, и нашли эти значения до 50 и 60 соответственно. Межквартильный размах IQR = 60-50 = 10. Далее мы видим, что 1,5 x IQR = 15. Это означает, что внутренние границы находятся на уровне 50-15 = 35 и 60 + 15 = 75. Это на 1,5 x IQR меньше, чем первый квартиль и больше, чем третий квартиль.

Теперь мы вычисляем 3 x IQR и видим, что это 3 x 10 = 30. Внешние ограждения равны 3 x IQR более экстремален, чем первый и третий квартили. Это означает, что внешние границы равны 50 – 30 = 20 и 60 + 30 = 90.

Любые значения данных меньше 20 или больше 90, считаются выбросами. Любые значения данных от 29 до 35 или от 75 до 90 являются предполагаемыми выбросами.

Оцените статью
recture.ru
Добавить комментарий