Сводные статистические данные, такие как медиана, первый квартиль и третий квартиль, являются показателями положения. Это связано с тем, что эти числа указывают на определенную долю распределения данных. Например, медиана – это среднее положение исследуемых данных. Половина данных имеет значения меньше медианы. Точно так же 25% данных имеют значения меньше первого квартиля, а 75% данных имеют значения меньше третьего квартиля.
Эта концепция может быть обобщенный. Один из способов сделать это – рассмотреть процентили. 90-й процентиль указывает точку, в которой 90% процентов данных имеют значения меньше этого числа. В более общем смысле, p -й процентиль – это число n , для которого p % данных меньше n .
Непрерывные случайные переменные
Хотя статистика порядка медианы, первого квартиля и третий квартиль обычно вводится в настройках с дискретным набором данных, эти статистические данные также могут быть определены для непрерывной случайной величины. Поскольку мы работаем с непрерывным распределением, мы используем интеграл. p -й процентиль – это число n такое, что:
∫ – ₶ n f ( x ) dx = p/100.
Здесь f ( x ) – функция плотности вероятности. Таким образом, мы можем получить любой процентиль, который нам нужен для непрерывного распределения.
Quantiles
Еще одно обобщение – отметить, что наши статистика заказов разделяет распределение, с которым мы работаем. Медиана делит набор данных пополам, а медиана или 50-й процентиль непрерывного распределения делит распределение пополам по площади. Первый квартиль, медиана и третий квартиль делят наши данные на четыре части с одинаковым количеством в каждой. Мы можем использовать приведенный выше интеграл для получения 25-го, 50-го и 75-го процентилей и разбить непрерывное распределение на четыре части равной площади.
Мы можем обобщить это процедура. Вопрос, с которого мы можем начать, задается натуральным числом n , как мы можем разделить распределение переменной на n частей одинакового размера? Это напрямую говорит об идее квантилей.
Квантили n для набора данных находятся приблизительно путем ранжирования данных по порядку, а затем разделение этого ранжирования на n – 1 равноотстоящую точку на интервале.
Если у нас есть вероятность Функция плотности для непрерывной случайной величины, мы используем указанный выше интеграл для нахождения квантилей. Для квантилей n мы хотим:
- Первый, у которого будет 1/ n области распределения слева от него.
- Второй должен иметь 2/ n области распределения к слева от него.
- r , чтобы иметь r / n области распространения слева от него.
- Последний, который имеет ( n – 1)/ n области распространения слева от него.
Мы видим, что для любого натурального числа n n соответствуют 100 r / n -м процентилям, где r может быть любым натуральное число от 1 до n – 1.
Common Quantiles
Определенные типы квантили используются достаточно часто, чтобы иметь конкретные имена. Ниже приведен их список:
- 2 квантиля называется медианным.
- 3 квантиля называются терцилями
- 4 квантиля называются квартилями
- 5 квантилей называются квинтилями
- 6 квантилей называются секстилями
- 7 квантилей называются септилями.
- 8 квантилей называются октилями
- 10 квантилей называются децилями.
- 12 квантилей называются дуодецилями.
- 20 квантилей называются вигинтилями.
- 100 квантилей называются процентилями.
- 1000 квантилей являются называемые permilles
Конечно, существуют и другие квантили, помимо тех, что указаны в списке выше. Часто используемый конкретный квантиль соответствует размеру выборки из непрерывного распределения.
Использование квантилей
Помимо указания положение набора данных, квантили полезны и в других отношениях. Предположим, у нас есть простая случайная выборка из совокупности, и распределение совокупности неизвестно. Чтобы определить, подходит ли модель, такая как нормальное распределение или распределение Вейбулла, для выборки, мы можем посмотреть на квантили наших данных и модели.
Сопоставляя квантили из нашей выборки данных с квантилями из определенного распределения вероятностей, результатом является набор парных данных. Мы наносим эти данные на диаграмму рассеяния, известную как график квантиль-квантиль или график q-q. Если полученная диаграмма рассеяния примерно линейна, то модель хорошо подходит для наших данных.