Что такое линия наименьших квадратов?

Диаграмма рассеяния — это тип графика, который используется для представления парных данных. Объясняющая переменная отложена по горизонтальной оси, а переменная отклика — по вертикальной оси. Одна из причин использования этого типа графика — поиск взаимосвязей между переменными.

Самый простой шаблон для поиска в наборе парных данных это прямая линия. Через любые две точки мы можем провести прямую линию. Если на нашей диаграмме рассеяния больше двух точек, большую часть времени мы больше не сможем провести линию, проходящую через каждую точку. Вместо этого мы нарисуем линию, которая проходит через середину точек и отображает общий линейный тренд данных.

Когда мы смотрим на точки в наш график и хотите провести линию через эти точки, возникает вопрос. Какую линию мы должны провести? Есть бесконечное количество линий, которые можно нарисовать. Очевидно, что, используя только наши глаза, каждый человек, смотрящий на диаграмму рассеяния, может построить немного другую линию. Эта двусмысленность — проблема. Мы хотим, чтобы у всех был четко определенный способ получения одной и той же линии. Цель состоит в том, чтобы получить математически точное описание того, какая линия должна быть проведена. Линия регрессии наименьших квадратов — это одна из таких линий, проходящих через наши точки данных.

Least Squares

Имя линии наименьших квадратов объясняет, что он делает. Мы начинаем с набора точек с координатами ( x i , y i ). Любая прямая линия пройдет между этими точками и будет проходить либо выше, либо ниже каждой из них. Мы можем вычислить расстояния от этих точек до линии, выбрав значение x и затем вычтя наблюдаемую координату y , которая соответствует этой x от координаты y нашей линии.

Различные линии, проходящие через один и тот же набор точек, будут дать другой набор расстояний. Мы хотим, чтобы эти расстояния были как можно меньше. Но существует проблема. Поскольку наши расстояния могут быть как положительными, так и отрицательными, сумма всех этих расстояний компенсирует друг друга. Сумма расстояний всегда будет равна нулю.

Решение этой проблемы состоит в том, чтобы исключить все отрицательные числа, возведя в квадрат расстояния между точками и линией. . Это дает набор неотрицательных чисел. Наша цель найти линию наилучшего соответствия такая же, как и сделать сумму этих квадратов расстояний как можно меньшей. Здесь на помощь приходит исчисление. Процесс дифференцирования в исчислении позволяет минимизировать сумму квадратов расстояний от заданной линии. Это объясняет фразу «наименьших квадратов» в нашем названии этой строки..

Линия наилучшего вписывания

Поскольку линия наименьших квадратов минимизирует квадраты расстояний между линией и нашими точками, мы можем думать этой строки как наиболее подходящую для наших данных. Вот почему линия наименьших квадратов также известна как линия наилучшего соответствия. Из всех возможных линий, которые можно было бы нарисовать, линия наименьших квадратов наиболее близка к набору данных в целом. Это может означать, что наша линия не попадет ни в одну из точек в нашем наборе данных.

Характеристики линии наименьших квадратов

Есть несколько особенностей, которыми обладает каждая линия наименьших квадратов. Первый интересующий нас вопрос касается наклона нашей линии. Наклон связан с коэффициентом корреляции наших данных. Фактически, наклон линии равен r (s y /s x ) . Здесь s x обозначает стандартное отклонение координат x и s y стандартное отклонение координат y наших данных. Знак коэффициента корреляции напрямую связан со знаком наклона нашей линии наименьших квадратов.

Еще одна особенность линии наименьших квадратов касается точки, которая он проходит. Хотя отрезок y линии наименьших квадратов может не представлять интереса со статистической точки зрения, есть один важный момент. Каждая линия наименьших квадратов проходит через среднюю точку данных. Эта средняя точка имеет координату x , которая является средним из значений x , и координату y , которая является средним значений y .

Оцените статью
recture.ru
Добавить комментарий