Обнаруживать выбросы с помощью нормального распределения
Обнаружение выбросов с помощью нормального распределения - это процесс, который включает определение порога стандартного отклонения и с помощью которого он предназначен для поиска экстремальных значений выборки.
Другими словами, чтобы обнаружить выбросы с помощью нормального распределения, нужно найти экстремальные значения набора данных с помощью стандартизированной нормальной формулы.
- Ценности крайности называются выбросы на английском.
- Ценности внутренний называются инсайдеры на английском.
Визуальное обнаружение выбросов может быть вариантом, когда у вас очень мало данных. При работе с базами данных очень непрактично находить выбросы вручную. Чтобы решить эту проблему, мы можем вычислить, какие значения считаются экстремальными, сравнивая с порогом отклонений.
В случае нормального распределения значение считается экстремальным, если оно находится на расстоянии 3 стандартных отклонений от среднего. Поскольку нормальное распределение имеет 2 хвоста, мы должны учитывать, что его можно уменьшить как с отрицательной, так и с положительной стороны.
Формула для обнаружения выбросов с использованием нормального распределения

Набор наблюдений может быть выражен предыдущим способом, где x - среднее значение, в пределах которого значения колеблются, а сигма - дисперсия колебаний указанных значений. Другими словами, сигма - это расстояние наблюдений от среднего значения.
Мультипликативный фактор определяет, является ли он выбросом или инсайдером. Если z принимает значения 3 или -3, тогда, согласно нормальному распределению, наблюдение y будет выбросом.
Чтобы узнать ценность z мы используем предыдущее уравнение:

- Если z> = 3 или z = <-3, то согласно нормальному распределению можно сказать, что Y это экстремальное значение или выброс.
- Если z <3 или z <-3, то согласно нормальному распределению можно сказать, что Y является внутренней ценностью или инсайдерской.
Нормальный стандарт
Вы знакомы с приведенным выше уравнением?
Точнее, это выражение наблюдения, которое следует нормальному распределению после стандартизации или типизации. Это называется так, потому что при делении на стандартное или стандартное отклонение разница числителя выражается в отклонениях.
По этой причине мы можем связать значения отклонения с z и таким образом можно будет купить его с порогом в 3 отклонения.
Пример
Найдите экстремальные значения следующих наблюдений согласно нормальному распределению:

Представляем наблюдения на графике:

С самого начала мы можем видеть, что значение, наиболее удаленное от остальных, скорее всего, будет выбросом.
Сначала мы вычисляем среднее значение и стандартное отклонение:
x = среднее значение = 5,8
сигма = стандартное отклонение = 10,51
Затем подставляем значения в формулу и вычисляем значение z для каждого наблюдения:

Приведенные выше значения являются мультипликативными коэффициентами сигмы, то есть z. Все, что больше 3 или меньше -3, будет экстремальным значением.

Мы видим, что значение z значение, превышающее 3 стандартных отклонения, соответствует наблюдению 49.
Следовательно, экстремальное или резко отклоняющееся значение набора данных будет 49.