Как определяются выбросы в статистике?

Выбросы – это значения данных, которые сильно отличаются от большинства набора данных. Эти значения выходят за рамки общей тенденции, присутствующей в данных. Тщательное изучение набора данных для поиска выбросов вызывает определенные трудности. Хотя легко увидеть, возможно, используя основу диаграммы, что некоторые значения отличаются от остальных данных, насколько должно отличаться значение, чтобы считаться выбросом? Мы рассмотрим конкретное измерение, которое даст нам объективный стандарт того, что составляет выброс.

Межквартильный диапазон

межквартильный размах – это то, что мы можем использовать, чтобы определить, действительно ли экстремальное значение является выбросом. Межквартильный диапазон основан на части пятизначной сводки набора данных, а именно на первом квартиле и третьем квартиле. Расчет межквартильного размаха требует единственной арифметической операции. Все, что нам нужно сделать, чтобы найти межквартильный размах, – это вычесть первый квартиль из третьего квартиля. Полученная разница показывает, насколько распределена средняя половина наших данных.

Определение выбросов

Умножение межквартильного размаха ( IQR) на 1,5 даст нам возможность определить, является ли определенное значение выбросом. Если мы вычтем 1,5 x IQR из первого квартиля, любые значения данных, которые меньше этого числа, будут считаться выбросами. Точно так же, если мы добавим 1,5 x IQR к третьему квартилю, любые значения данных, превышающие это число, будут считаться выбросами.

Сильные выбросы

Некоторые выбросы показывают крайнее отклонение от остальной части набора данных. В этих случаях мы можем предпринять шаги, описанные выше, изменив только число, на которое мы умножаем IQR, и определить определенный тип выброса. Если мы вычтем 3,0 x IQR из первого квартиля, любая точка ниже этого числа называется сильным выбросом. Точно так же добавление 3,0 x IQR к третьему квартилю позволяет нам определять сильные выбросы, глядя на точки, которые больше этого числа.

Слабые выбросы

Помимо сильных выбросов, есть еще одна категория выбросов. Если значение данных является выбросом, но не сильно выбросом, то мы говорим, что значение является слабым выбросом. Мы рассмотрим эти концепции на нескольких примерах.

Пример 1

Во-первых, предположим, что у нас есть набор данных {1, 2, 2, 3, 3, 4, 5, 5, 9}. Число 9 определенно выглядит исключением. Это намного больше, чем любое другое значение из остальной части набора. Чтобы объективно определить, является ли 9 выбросом, мы используем вышеуказанные методы. Первый квартиль равен 2, а третий квартиль равен 5, что означает, что межквартильный диапазон равен 3. Мы умножаем межквартильный диапазон на 1,5, получая 4,5, а затем добавляем это число к третьему квартилю. Результат 9,5 больше любого из наших значений данных. Следовательно, нет никаких выбросов.

Пример 2

Теперь мы смотрим на тот же набор данных, что и раньше, за исключением того, что наибольшее значение равно 10, а чем 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Первый квартиль, третий квартиль и межквартильный размах идентичны примеру 1. Когда мы прибавляем 1,5 x IQR = 4,5 к третьему квартилю, получаем 9,5. Поскольку 10 больше 9,5, это считается выбросом.

10 – сильный или слабый выброс? Для этого нам нужно посмотреть на 3 x IQR = 9. Когда мы прибавляем 9 к третьему квартилю, мы получаем сумму 14. Поскольку 10 не больше 14, это не является сильным выбросом. Таким образом, мы заключаем, что 10 – это слабый выброс.

Причины выявления выбросов

Нам всегда нужно следить за выбросы. Иногда они вызваны ошибкой. В других случаях выбросы указывают на присутствие ранее неизвестного явления. Еще одна причина, по которой нам необходимо тщательно проверять выбросы, заключается в том, что вся описательная статистика чувствительна к выбросам. Среднее значение, стандартное отклонение и коэффициент корреляции для парных данных – это лишь некоторые из этих типов статистики.

Оцените статью
recture.ru
Добавить комментарий