Выброс - это аномальное и экстремальное наблюдение в статистической выборке или временном ряду данных, которое потенциально может повлиять на оценку его параметров.
Проще говоря, выбросом будет наблюдение в пределах выборки или временного ряда данных, которое не согласуется с остальными. Представьте, например, что мы измеряем рост учеников в классе.
Представим себе выборку из 10 студентов. Высота каждого такая:
Образец 1 | |
Ученик | Высота в метрах |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
Средний рост класса - 1,73. Если мы примем во внимание максимальную высоту (1,85) и минимальную высоту (1,62) и расстояние между ними до среднего, мы увидим, что это 0,113 и 0,117 соответственно. Как мы видим, среднее значение находится примерно в середине интервала и может считаться довольно хорошей оценкой.
Эффект выброса
Теперь давайте представим еще одну выборку из 10 учеников следующего роста:
Образец 1 | |
Ученик | Высота в метрах |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
В этом случае средний рост класса будет 1,81. Если теперь мы посмотрим на максимальную высоту (2,20) и минимальную высоту (1,62) и расстояние между ними до среднего значения, мы увидим, что оно составляет 0,39 и 0,18 соответственно. В этом случае среднее значение больше не находится примерно в середине диапазона.
Эффект двух самых крайних наблюдений (2.18 и 2.20) привел к смещению среднего арифметического в сторону максимального значения распределения.
В этом примере мы видим эффект, который имеют выбросы, и то, как они могут исказить расчет среднего значения.
Как обнаружить выбросы?Как исправить эффект выбросов
В подобных ситуациях, когда есть аномальные значения, которые существенно отличаются от остальных, медиана является лучшей оценкой, чтобы знать, в какой точке сосредоточено большее количество наблюдений.
В случае обоих распределений и поскольку у нас есть четное количество значений, мы не можем взять именно то значение, которое делит распределение вдвое, для вычисления медианы. При этом после упорядочивания значений от наименьшего к наибольшему мы возьмем пятое и шестое наблюдение (оба оставляют по 4 наблюдения с каждой стороны) и вычислим медиану следующим образом:
Образец 1:
1,75+1,72/2 = 1,73
Образец 2:
1,79+1,71/2 = 1,75
Как мы видим, в выборке № 1 при отсутствии выбросов или аномальных наблюдений медиана составляет 1,73 и совпадает со средним значением. Напротив, для образца 2 среднее значение составляет 1,75. Как мы видим, это значение дальше от средней высоты, которая составляла 1,81, и дает нам более качественную оценку точки, чтобы приблизительно знать, в какой точке сосредоточено большее количество наблюдений.
Точечная оценка