Outlier - Что это такое, определение и понятие

Содержание:

Outlier - Что это такое, определение и понятие
Outlier - Что это такое, определение и понятие
Anonim

Выброс - это аномальное и экстремальное наблюдение в статистической выборке или временном ряду данных, которое потенциально может повлиять на оценку его параметров.

Проще говоря, выбросом будет наблюдение в пределах выборки или временного ряда данных, которое не согласуется с остальными. Представьте, например, что мы измеряем рост учеников в классе.

Представим себе выборку из 10 студентов. Высота каждого такая:

Образец 1
УченикВысота в метрах
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Средний рост класса - 1,73. Если мы примем во внимание максимальную высоту (1,85) и минимальную высоту (1,62) и расстояние между ними до среднего, мы увидим, что это 0,113 и 0,117 соответственно. Как мы видим, среднее значение находится примерно в середине интервала и может считаться довольно хорошей оценкой.

Эффект выброса

Теперь давайте представим еще одну выборку из 10 учеников следующего роста:

Образец 1
УченикВысота в метрах
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

В этом случае средний рост класса будет 1,81. Если теперь мы посмотрим на максимальную высоту (2,20) и минимальную высоту (1,62) и расстояние между ними до среднего значения, мы увидим, что оно составляет 0,39 и 0,18 соответственно. В этом случае среднее значение больше не находится примерно в середине диапазона.

Эффект двух самых крайних наблюдений (2.18 и 2.20) привел к смещению среднего арифметического в сторону максимального значения распределения.

В этом примере мы видим эффект, который имеют выбросы, и то, как они могут исказить расчет среднего значения.

Как обнаружить выбросы?

Как исправить эффект выбросов

В подобных ситуациях, когда есть аномальные значения, которые существенно отличаются от остальных, медиана является лучшей оценкой, чтобы знать, в какой точке сосредоточено большее количество наблюдений.

В случае обоих распределений и поскольку у нас есть четное количество значений, мы не можем взять именно то значение, которое делит распределение вдвое, для вычисления медианы. При этом после упорядочивания значений от наименьшего к наибольшему мы возьмем пятое и шестое наблюдение (оба оставляют по 4 наблюдения с каждой стороны) и вычислим медиану следующим образом:

Образец 1:

1,75+1,72/2 = 1,73

Образец 2:

1,79+1,71/2 = 1,75

Как мы видим, в выборке № 1 при отсутствии выбросов или аномальных наблюдений медиана составляет 1,73 и совпадает со средним значением. Напротив, для образца 2 среднее значение составляет 1,75. Как мы видим, это значение дальше от средней высоты, которая составляла 1,81, и дает нам более качественную оценку точки, чтобы приблизительно знать, в какой точке сосредоточено большее количество наблюдений.

Точечная оценка