Как построить доверительный интервал для доли населения

Доверительные интервалы можно использовать для оценки нескольких параметров генеральной совокупности. Одним из типов параметров, которые можно оценить с помощью выводимой статистики, является доля населения. Например, мы можем захотеть узнать процент населения США, поддерживающего конкретный законодательный акт. Для этого типа вопросов нам нужно найти доверительный интервал.

В этой статье мы увидим, как построить доверительный интервал для доли населения, и исследуем часть теории, лежащей в основе этого.

Общая структура

Мы начинаем с рассмотрения общей картины, прежде чем мы перейдем к специфика. Тип доверительного интервала, который мы будем рассматривать, имеет следующую форму:

Оценка +/- предел погрешности

Это означает, что нам нужно определить два числа. Эти значения являются приблизительными для желаемого параметра вместе с допустимой погрешностью.

Условия

Перед проведением любого статистического теста или процедуры, важно убедиться, что все условия соблюдены. Для доверительного интервала для доли населения нам необходимо убедиться, что выполняется следующее:

  • У нас есть простая случайная выборка размера n из большой популяции
  • Наши люди были выбраны независимо друг от друга.
  • По крайней мере 15 успехов и 15 ошибки в нашем образце.

Если последний элемент не удовлетворяет, то, возможно, можно будет немного скорректировать наш образец и использовать плюс -четвертый доверительный интервал. В дальнейшем мы будем предполагать, что все вышеперечисленные условия выполнены.

Пропорции выборки и населения

Начнем с оценкой доли нашего населения. Подобно тому, как мы используем выборочное среднее для оценки среднего генерального значения, мы используем выборочную пропорцию для оценки доли генеральной совокупности. Доля населения – неизвестный параметр. Доля выборки – это статистика. Эта статистика получается путем подсчета количества успешных результатов в нашей выборке и последующего деления на общее количество людей в выборке.

Доля населения обозначается как p и не требует пояснений. Обозначения для пропорции образца немного сложнее. Мы обозначаем образец пропорции как p̂ и читаем этот символ как «p-hat», потому что он выглядит как буква p со шляпой наверху.

Это становится первой частью нашего доверительного интервала. Оценка p равна p̂.

Распределение выборки доли выборки

Чтобы определить формулу для предела погрешности, мы нужно подумать о выборочном распределении p̂. Нам нужно будет знать среднее значение, стандартное отклонение и конкретное распределение, с которым мы работаем..

Выборочное распределение p̂ является биномиальным распределением с вероятностью успеха p и n судебные процессы. Этот тип случайной величины имеет среднее значение p и стандартное отклонение ( p (1 – p )/ n ) 0,5 . С этим связаны две проблемы.

Первая проблема заключается в том, что с биномиальным распределением может быть очень сложно работать. Наличие факториалов может привести к очень большим числам. Здесь нам помогают условия. Пока наши условия выполняются, мы можем оценить биномиальное распределение с помощью стандартного нормального распределения.

Вторая проблема заключается в том, что стандартное отклонение p̂ использует p в его определении. Неизвестный параметр совокупности должен оцениваться с использованием того же параметра в качестве погрешности. Это круговое рассуждение – проблема, которую необходимо исправить.

Выход из этой головоломки – заменить стандартное отклонение его стандартной ошибкой. Стандартные ошибки основаны на статистике, а не на параметрах. Стандартная ошибка используется для оценки стандартного отклонения. Что делает эту стратегию полезной, так это то, что нам больше не нужно знать значение параметра p.

Formula

Чтобы использовать стандартную ошибку, мы заменяем неизвестный параметр p статистикой p̂. Результатом является следующая формула для доверительного интервала для доли населения:

p̂ +/- z * (p̂ (1 – p̂)/ n ) 0,5 .

Здесь значение z * определяется нашим уровнем уверенности C. Для стандартного нормального распределения ровно C процент стандартного нормального распределения находится между -z * и z *. Общие значения для z * включают 1,645 для достоверности 90% и 1,96 для достоверности 95%.

Пример

Давайте посмотрим, как работает этот метод, на примере. Предположим, мы хотим знать с 95% уверенностью процент электората в округе, который идентифицирует себя как демократический. Мы провели простую случайную выборку из 100 человек в этом округе и обнаружили, что 64 из них идентифицируют себя как демократы.

Мы видим, что все условия выполнены . Оценка нашей доли населения составляет 64/100 = 0,64. Это значение выборочной пропорции p, и это центр нашего доверительного интервала.

Предел погрешности состоит из двух частей. Первый – z *. Как мы уже говорили, для достоверности 95% значение z * = 1,96.

Другая часть поля погрешности определяется формулой (p̂ (1 – p̂)/ n ) 0,5 . Мы устанавливаем p̂ = 0,64 и вычисляем = стандартная ошибка равной (0,64 (0,36)/100) 0,5 = 0,048.

Мы умножаем эти два числа вместе и получаем погрешность 0,09408.. Конечный результат:

0,64 +/- 0,09408,

или мы можем перепишите это как 54,592% на 73,408%. Таким образом, мы на 95% уверены, что истинная доля демократов в населении находится где-то в диапазоне этих процентов. Это означает, что в конечном итоге наша методика и формула будут отражать долю населения в 95% случаев.

Связанные идеи

Есть ряд идей и тем, связанных с этим типом доверительного интервала. Например, мы могли бы провести проверку гипотезы, относящуюся к значению доли населения. Мы также могли сравнить две пропорции из двух разных популяций.

Оцените статью
recture.ru
Добавить комментарий