Что такое остатки?

Линейная регрессия – это статистический инструмент, который определяет, насколько хорошо прямая линия соответствует набору парных данных. Прямая линия, которая лучше всего соответствует этим данным, называется линией регрессии наименьших квадратов. Эту строку можно использовать по-разному. Одно из таких применений – оценить значение переменной ответа для данного значения независимой переменной. С этой идеей связана идея остатка.

Остатки получаются путем вычитания. Все, что нам нужно сделать, это вычесть прогнозируемое значение y из наблюдаемого значения y для конкретного x . Результат называется невязкой.

Формула для остатков

Формула для остатков проста:

Остаточный = наблюдаемый y – прогнозируемый y

Важно отметить, что прогнозируемое значение берется из нашей линии регрессии. Наблюдаемое значение берется из нашего набора данных.

Примеры

Мы проиллюстрируем использование этой формулы на примере . Предположим, что нам дан следующий набор парных данных:

(1, 2), (2, 3), (3, 7), (3 , 6), (4, 9), (5, 9)

Используя программное обеспечение, мы можем увидеть, что линия регрессии наименьших квадратов имеет вид y = 2 x . Мы будем использовать это для прогнозирования значений для каждого значения x .

Например, когда x = 5, мы видим, что 2 (5) = 10. Это дает нам точку на нашей линии регрессии с координатой x , равной 5.

Чтобы вычислить остаток в точках x = 5, мы вычитаем прогнозируемое значение из нашего наблюдаемого значения. Поскольку координата y нашей точки данных была 9, это дает остаток 9-10 = -1.

В следующей таблице мы видим, как вычислить все наши остатки для этого набора данных:

X Наблюдаемый y Прогнозируемый y Остаточный
1 2 2 0
2 3 4 -1
3 7 6 1
3 6 6 0
4 9 8 1
5 9 10 -1

Особенности остатков

Теперь, когда мы рассмотрели пример, следует отметить несколько особенностей остатков:

  • Остатки положительны для точек, выпавших l над линией регрессии.
  • Остатки отрицательны для точек, которые попадают ниже линии регрессии.
  • Остатки равны нулю для точек, которые попадают точно вдоль линии регрессии.
  • Чем больше абсолютное значение остатка, тем дальше точка лежит от линии регрессии.
  • Сумма всех остатков должна быть равна нулю. На практике иногда эта сумма не совсем равна нулю. Причина этого несоответствия в том, что ошибки округления могут накапливаться.

Использование остатков

Есть несколько вариантов использования для остатков. Один из способов использования – помочь нам определить, есть ли у нас набор данных, который имеет общий линейный тренд, или нам следует рассмотреть другую модель. Причина этого в том, что остатки помогают усилить любой нелинейный паттерн в наших данных. То, что может быть трудно увидеть, глядя на диаграмму рассеяния, легче увидеть, исследуя остатки и соответствующий график остатков.

Еще одна причина рассмотреть остатки заключается в проверке выполнения условий вывода для линейной регрессии. После проверки линейного тренда (путем проверки остатков) мы также проверяем распределение остатков. Чтобы иметь возможность выполнять вывод регрессии, мы хотим, чтобы остатки на нашей линии регрессии были приблизительно нормально распределены. Гистограмма или основной график остатков поможет проверить выполнение этого условия.

  • Наклон линии регрессии и коэффициент корреляции
  • Что такое линия наименьших квадратов?
  • Что такое Диаграмма рассеяния?
  • Разница между экстраполяцией и интерполяцией
  • Анализ линейной регрессии
  • Расчет коэффициента корреляции
  • Парные данные в статистике
  • Как определяются выбросы в статистике?
  • Когда стандартное отклонение равно нулю?
  • Что такое моменты в статистике?
  • Математический глоссарий: математические термины и определения
  • Что такое корреляция в Статистика?
  • Максимум и точки перегиба распределения хи-квадрат
  • 7 Grap hs, обычно используемый в статистике
  • Ярлык формулы суммы квадратов
  • Формула уклона для определения подъема над спуском
Оцените статью
recture.ru
Добавить комментарий