Обнаруживать выбросы с помощью нормального распределения

Обнаружение выбросов с помощью нормального распределения - это процесс, который включает определение порога стандартного отклонения и с помощью которого он предназначен для поиска экстремальных значений выборки.

Другими словами, чтобы обнаружить выбросы с помощью нормального распределения, нужно найти экстремальные значения набора данных с помощью стандартизированной нормальной формулы.

  • Ценности крайности называются выбросы на английском.
  • Ценности внутренний называются инсайдеры на английском.

Визуальное обнаружение выбросов может быть вариантом, когда у вас очень мало данных. При работе с базами данных очень непрактично находить выбросы вручную. Чтобы решить эту проблему, мы можем вычислить, какие значения считаются экстремальными, сравнивая с порогом отклонений.

В случае нормального распределения значение считается экстремальным, если оно находится на расстоянии 3 стандартных отклонений от среднего. Поскольку нормальное распределение имеет 2 хвоста, мы должны учитывать, что его можно уменьшить как с отрицательной, так и с положительной стороны.

Формула для обнаружения выбросов с использованием нормального распределения

Набор наблюдений может быть выражен предыдущим способом, где x - среднее значение, в пределах которого значения колеблются, а сигма - дисперсия колебаний указанных значений. Другими словами, сигма - это расстояние наблюдений от среднего значения.

Мультипликативный фактор определяет, является ли он выбросом или инсайдером. Если z принимает значения 3 или -3, тогда, согласно нормальному распределению, наблюдение y будет выбросом.

Чтобы узнать ценность z мы используем предыдущее уравнение:

  • Если z> = 3 или z = <-3, то согласно нормальному распределению можно сказать, что Y это экстремальное значение или выброс.
  • Если z <3 или z <-3, то согласно нормальному распределению можно сказать, что Y является внутренней ценностью или инсайдерской.

Нормальный стандарт

Вы знакомы с приведенным выше уравнением?

Точнее, это выражение наблюдения, которое следует нормальному распределению после стандартизации или типизации. Это называется так, потому что при делении на стандартное или стандартное отклонение разница числителя выражается в отклонениях.

По этой причине мы можем связать значения отклонения с z и таким образом можно будет купить его с порогом в 3 отклонения.

Пример

Найдите экстремальные значения следующих наблюдений согласно нормальному распределению:

Представляем наблюдения на графике:

С самого начала мы можем видеть, что значение, наиболее удаленное от остальных, скорее всего, будет выбросом.

Сначала мы вычисляем среднее значение и стандартное отклонение:

x = среднее значение = 5,8

сигма = стандартное отклонение = 10,51

Затем подставляем значения в формулу и вычисляем значение z для каждого наблюдения:

Приведенные выше значения являются мультипликативными коэффициентами сигмы, то есть z. Все, что больше 3 или меньше -3, будет экстремальным значением.

Мы видим, что значение z значение, превышающее 3 стандартных отклонения, соответствует наблюдению 49.

Следовательно, экстремальное или резко отклоняющееся значение набора данных будет 49.

Популярные посты

Что делать с полученными в наследство сбережениями?

В случае, если мы получаем денежную сумму, которая была у умершего в банке, - после того, как сложная ситуация была преодолена, - первым делом необходимо уведомить финансовую компанию о смерти, чтобы она не продолжала взимать с себя возможные платежи. ожидающие выплаты. Хотя тоже возможно, что оставивший этоПодробнее…

Рост микрокредитов в последние годы

В результате глобальной экономической ситуации этот тип финансового кредита стал популярным, позволяя людям, которым в противном случае было бы труднее финансировать себя, в обмен на все более конкурентоспособную процентную ставку. Эта концепция финансирования в короткие периоды времени появилась недавно и значительно расширилась.…

Ирландия и Испания лидируют в восстановлении Европы, хотя и разными путями

В то время как большая часть мира по-прежнему страдает от последствий кризиса 2007 года, восстановление Европы возглавляют Ирландия и Испания, предлагая совершенно разные решения для решения очень схожих проблем. В качестве отправной точки, сохраняя разницу в размере ВВП и численности населения, мы можем сказать, что Подробнее…