Обнаруживать выбросы с помощью нормального распределения

Обнаружение выбросов с помощью нормального распределения - это процесс, который включает определение порога стандартного отклонения и с помощью которого он предназначен для поиска экстремальных значений выборки.

Другими словами, чтобы обнаружить выбросы с помощью нормального распределения, нужно найти экстремальные значения набора данных с помощью стандартизированной нормальной формулы.

  • Ценности крайности называются выбросы на английском.
  • Ценности внутренний называются инсайдеры на английском.

Визуальное обнаружение выбросов может быть вариантом, когда у вас очень мало данных. При работе с базами данных очень непрактично находить выбросы вручную. Чтобы решить эту проблему, мы можем вычислить, какие значения считаются экстремальными, сравнивая с порогом отклонений.

В случае нормального распределения значение считается экстремальным, если оно находится на расстоянии 3 стандартных отклонений от среднего. Поскольку нормальное распределение имеет 2 хвоста, мы должны учитывать, что его можно уменьшить как с отрицательной, так и с положительной стороны.

Формула для обнаружения выбросов с использованием нормального распределения

Набор наблюдений может быть выражен предыдущим способом, где x - среднее значение, в пределах которого значения колеблются, а сигма - дисперсия колебаний указанных значений. Другими словами, сигма - это расстояние наблюдений от среднего значения.

Мультипликативный фактор определяет, является ли он выбросом или инсайдером. Если z принимает значения 3 или -3, тогда, согласно нормальному распределению, наблюдение y будет выбросом.

Чтобы узнать ценность z мы используем предыдущее уравнение:

  • Если z> = 3 или z = <-3, то согласно нормальному распределению можно сказать, что Y это экстремальное значение или выброс.
  • Если z <3 или z <-3, то согласно нормальному распределению можно сказать, что Y является внутренней ценностью или инсайдерской.

Нормальный стандарт

Вы знакомы с приведенным выше уравнением?

Точнее, это выражение наблюдения, которое следует нормальному распределению после стандартизации или типизации. Это называется так, потому что при делении на стандартное или стандартное отклонение разница числителя выражается в отклонениях.

По этой причине мы можем связать значения отклонения с z и таким образом можно будет купить его с порогом в 3 отклонения.

Пример

Найдите экстремальные значения следующих наблюдений согласно нормальному распределению:

Представляем наблюдения на графике:

С самого начала мы можем видеть, что значение, наиболее удаленное от остальных, скорее всего, будет выбросом.

Сначала мы вычисляем среднее значение и стандартное отклонение:

x = среднее значение = 5,8

сигма = стандартное отклонение = 10,51

Затем подставляем значения в формулу и вычисляем значение z для каждого наблюдения:

Приведенные выше значения являются мультипликативными коэффициентами сигмы, то есть z. Все, что больше 3 или меньше -3, будет экстремальным значением.

Мы видим, что значение z значение, превышающее 3 стандартных отклонения, соответствует наблюдению 49.

Следовательно, экстремальное или резко отклоняющееся значение набора данных будет 49.

Популярные посты

Как «Монополия» приближает нас к экономике?

Игры - это инструмент, который помогает малышам пообщаться, понять окружающую их среду и, в конечном итоге, стать ближе к реальной жизни. Следовательно, «Монополия» как настольная игра имеет важное значение как первый инструмент, который приближает детей к экономике. Там дляПодробнее…

Исландия - еще один способ справиться с экономическим кризисом

Финансовый кризис 2008 года имел чрезвычайно тяжелые последствия для всего мира. Греция и Исландия были двумя странами, которые серьезно пострадали от разрушительного воздействия этого кризиса. Танго Греция и Исландия подошли к выходу из кризиса по-разному. Вот почему многие смотрят на Исландию и задаются вопросом: как читать дальше…

Факторы выбора инвестиционного фонда

✅ Факторы выбора инвестиционного фонда | Что это такое, значение, понятие и определение. Факторами при выборе инвестиционного фонда являются те переменные, которые необходимо учитывать ...…