Наклон линии регрессии и коэффициент корреляции

Часто при изучении статистики важно устанавливать связи между разными темами. Мы увидим пример этого, в котором наклон линии регрессии напрямую связан с коэффициентом корреляции. Поскольку обе эти концепции включают прямые линии, вполне естественно задать вопрос: «Как связаны коэффициент корреляции и линия наименьших квадратов?»

Сначала мы рассмотрим некоторую предысторию по обеим этим темам.

Подробности, касающиеся корреляции

Важно помнить детали, относящиеся к коэффициенту корреляции, который обозначается r . Эта статистика используется, когда у нас есть парные количественные данные. На диаграмме разброса парных данных мы можем искать тенденции в общем распределении данных. Некоторые парные данные имеют линейный или прямолинейный рисунок. Но на практике данные никогда не попадают точно по прямой.

Некоторые люди, смотрящие на одну и ту же диаграмму рассеяния парных данных, не согласились бы с тем, насколько она близка к показывает общий линейный тренд. В конце концов, наши критерии для этого могут быть несколько субъективными. Шкала, которую мы используем, также может повлиять на наше восприятие данных. По этим и другим причинам нам нужна какая-то объективная мера, чтобы определить, насколько близки наши парные данные к линейности. Для нас это достигается с помощью коэффициента корреляции.

Несколько основных фактов о r включают:

  • Значение r находится в диапазоне от любого действительного числа от -1 до 1.
  • Значения r , близкое к 0, означает, что между данными практически отсутствует линейная связь.
  • Значения r близки к 1 подразумевают, что между данными существует положительная линейная зависимость. Это означает, что по мере увеличения x увеличивается и y .
  • Значения r близкое к -1 означает, что между данными существует отрицательная линейная зависимость. Это означает, что по мере увеличения x y уменьшается.

Наклон линии наименьших квадратов

Последние два элемента в приведенном выше списке указывают нам на наклон линии наименьших квадратов наилучшего соответствия. Напомним, что наклон линии является мерой того, на сколько единиц она идет вверх или вниз для каждой единицы, которую мы перемещаем вправо. Иногда это указывается как подъем линии, разделенной пробегом, или изменение значений y , деленное на изменение значений x .

Как правило, прямые линии имеют положительный, отрицательный или нулевой наклон. Если бы мы исследовали наши линии регрессии наименьших квадратов и сравнили соответствующие значения r , мы бы заметили, что каждый раз, когда наши данные имеют отрицательный коэффициент корреляции, наклон линии регрессии отрицательный. . Точно так же каждый раз, когда у нас есть положительный коэффициент корреляции, наклон линии регрессии будет положительным..

Из этого наблюдения должно быть очевидно, что определенно существует связь между знаком коэффициента корреляции и наклоном линии наименьших квадратов. Осталось объяснить, почему это так.

Формула для наклона

Причина связи между значением r , а наклон линии наименьших квадратов имеет отношение к формуле, которая дает нам наклон этой линии. Для парных данных ( x, y ) мы обозначаем стандартное отклонение данных x как s x и стандартное отклонение данных y на sy .

Формула для наклона a линии регрессии:

  • a = r (s y /s x )

Вычисление стандартного отклонения включает извлечение положительного квадратного корня из неотрицательного числа. В результате оба стандартных отклонения в формуле для наклона должны быть неотрицательными. Если мы предположим, что есть некоторые вариации в наших данных, мы сможем не учитывать возможность того, что любое из этих стандартных отклонений равно нулю. Следовательно, знак коэффициента корреляции будет таким же, как знак наклона линии регрессии.

Оцените статью
recture.ru
Добавить комментарий