Понимание квантилей: определения и использование

Сводные статистические данные, такие как медиана, первый квартиль и третий квартиль, являются показателями положения. Это связано с тем, что эти числа указывают на определенную долю распределения данных. Например, медиана — это среднее положение исследуемых данных. Половина данных имеет значения меньше медианы. Точно так же 25% данных имеют значения меньше первого квартиля, а 75% данных имеют значения меньше третьего квартиля.

Эта концепция может быть обобщенный. Один из способов сделать это — рассмотреть процентили. 90-й процентиль указывает точку, в которой 90% процентов данных имеют значения меньше этого числа. В более общем смысле, p -й процентиль — это число n , для которого p % данных меньше n .

Непрерывные случайные переменные

Хотя статистика порядка медианы, первого квартиля и третий квартиль обычно вводится в настройках с дискретным набором данных, эти статистические данные также могут быть определены для непрерывной случайной величины. Поскольку мы работаем с непрерывным распределением, мы используем интеграл. p -й процентиль — это число n такое, что:

— ₶ n f ( x ) dx = p/100.

Здесь f ( x ) — функция плотности вероятности. Таким образом, мы можем получить любой процентиль, который нам нужен для непрерывного распределения.

Quantiles

Еще одно обобщение — отметить, что наши статистика заказов разделяет распределение, с которым мы работаем. Медиана делит набор данных пополам, а медиана или 50-й процентиль непрерывного распределения делит распределение пополам по площади. Первый квартиль, медиана и третий квартиль делят наши данные на четыре части с одинаковым количеством в каждой. Мы можем использовать приведенный выше интеграл для получения 25-го, 50-го и 75-го процентилей и разбить непрерывное распределение на четыре части равной площади.

Мы можем обобщить это процедура. Вопрос, с которого мы можем начать, задается натуральным числом n , как мы можем разделить распределение переменной на n частей одинакового размера? Это напрямую говорит об идее квантилей.

Квантили n для набора данных находятся приблизительно путем ранжирования данных по порядку, а затем разделение этого ранжирования на n — 1 равноотстоящую точку на интервале.

Если у нас есть вероятность Функция плотности для непрерывной случайной величины, мы используем указанный выше интеграл для нахождения квантилей. Для квантилей n мы хотим:

  • Первый, у которого будет 1/ n области распределения слева от него.
  • Второй должен иметь 2/ n области распределения к слева от него.
  • r , чтобы иметь r / n области распространения слева от него.
  • Последний, который имеет ( n — 1)/ n области распространения слева от него.

Мы видим, что для любого натурального числа n n соответствуют 100 r / n -м процентилям, где r может быть любым натуральное число от 1 до n — 1.

Common Quantiles

Определенные типы квантили используются достаточно часто, чтобы иметь конкретные имена. Ниже приведен их список:

  • 2 квантиля называется медианным.
  • 3 квантиля называются терцилями
  • 4 квантиля называются квартилями
  • 5 квантилей называются квинтилями
  • 6 квантилей называются секстилями
  • 7 квантилей называются септилями.
  • 8 квантилей называются октилями
  • 10 квантилей называются децилями.
  • 12 квантилей называются дуодецилями.
  • 20 квантилей называются вигинтилями.
  • 100 квантилей называются процентилями.
  • 1000 квантилей являются называемые permilles

Конечно, существуют и другие квантили, помимо тех, что указаны в списке выше. Часто используемый конкретный квантиль соответствует размеру выборки из непрерывного распределения.

Использование квантилей

Помимо указания положение набора данных, квантили полезны и в других отношениях. Предположим, у нас есть простая случайная выборка из совокупности, и распределение совокупности неизвестно. Чтобы определить, подходит ли модель, такая как нормальное распределение или распределение Вейбулла, для выборки, мы можем посмотреть на квантили наших данных и модели.

Сопоставляя квантили из нашей выборки данных с квантилями из определенного распределения вероятностей, результатом является набор парных данных. Мы наносим эти данные на диаграмму рассеяния, известную как график квантиль-квантиль или график q-q. Если полученная диаграмма рассеяния примерно линейна, то модель хорошо подходит для наших данных.

Оцените статью
recture.ru
Добавить комментарий