Что такое асимметрия в статистике?

Некоторые распределения данных, например кривая колокола или нормальное распределение, являются симметричными. Это означает, что правая и левая части распределения являются идеальным зеркальным отображением друг друга. Не каждое распределение данных симметрично. Несимметричные наборы данных называются асимметричными. Мера того, насколько асимметричным может быть распределение, называется асимметрией.

Среднее значение, медиана и мода — все это меры центра набора данных. Асимметрию данных можно определить по тому, как эти величины связаны друг с другом.

Смещен вправо

Данные скошенные вправо имеют длинный хвост, идущий вправо. Альтернативный способ говорить о наборе данных, смещенном вправо, — это сказать, что он явно смещен. В этой ситуации среднее и медианное значение больше, чем мода. Как правило, в большинстве случаев, когда данные смещены вправо, среднее значение будет больше медианы. Таким образом, для набора данных со смещением вправо:

  • Всегда: означает больше, чем режим
  • Всегда: медиана больше, чем в режиме.
  • В большинстве случаев: среднее значение больше медианы

Смещено в сторону Левый

Ситуация меняется на противоположную, когда мы имеем дело с данными, смещенными влево. Данные, которые смещены влево, имеют длинный хвост, идущий влево. Другой способ говорить о наборе данных с перекосом влево — это сказать, что он отрицательно смещен. В этой ситуации среднее и медианное значение меньше, чем у режима. Как правило, в большинстве случаев для данных, смещенных влево, среднее значение будет меньше медианы. Таким образом, для набора данных со смещением влево:

  • Всегда: означает меньше, чем режим
  • Всегда: медиана меньше, чем в режиме.
  • В большинстве случаев: означает меньше медианы

Меры Асимметрия

Одно дело — посмотреть на два набора данных и определить, что один является симметричным, а другой — асимметричным. Другое дело — взглянуть на два набора асимметричных данных и сказать, что один более искажен, чем другой. Определение того, что является более искаженным, может быть очень субъективным, просто взглянув на график распределения. Вот почему есть способы численно вычислить меру асимметрии.

Один из способов измерения асимметрии, называемый первым коэффициентом асимметрии Пирсона, заключается в вычитании среднего из режим, а затем разделите эту разницу на стандартное отклонение данных. Причина разделения разницы в том, что мы имеем безразмерную величину. Это объясняет, почему данные, смещенные вправо, имеют положительный перекос. Если набор данных смещен вправо, среднее значение больше, чем мода, и поэтому вычитание режима из среднего дает положительное число. Аналогичный аргумент объясняет, почему данные, смещенные влево, имеют отрицательную асимметрию..

Второй коэффициент асимметрии Пирсона также используется для измерения асимметрии набора данных. Для этой величины мы вычитаем моду из медианы, умножаем это число на три и затем делим на стандартное отклонение.

Применение искаженных данных

Искаженные данные вполне естественно возникают в различных ситуациях. Доходы смещены вправо, потому что даже несколько человек, которые зарабатывают миллионы долларов, могут сильно повлиять на среднее значение, а отрицательные доходы отсутствуют. Точно так же данные, касающиеся срока службы продукта, например марки лампочки, смещены вправо. Здесь наименьший срок службы равен нулю, а лампочки с длительным сроком службы придают данным положительную асимметрию.

Оцените статью
recture.ru
Добавить комментарий