Outlier - Что это такое, определение и понятие

Выброс - это аномальное и экстремальное наблюдение в статистической выборке или временном ряду данных, которое потенциально может повлиять на оценку его параметров.

Проще говоря, выбросом будет наблюдение в пределах выборки или временного ряда данных, которое не согласуется с остальными. Представьте, например, что мы измеряем рост учеников в классе.

Представим себе выборку из 10 студентов. Высота каждого такая:

Образец 1
УченикВысота в метрах
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Средний рост класса - 1,73. Если мы примем во внимание максимальную высоту (1,85) и минимальную высоту (1,62) и расстояние между ними до среднего, мы увидим, что это 0,113 и 0,117 соответственно. Как мы видим, среднее значение находится примерно в середине интервала и может считаться довольно хорошей оценкой.

Эффект выброса

Теперь давайте представим еще одну выборку из 10 учеников следующего роста:

Образец 1
УченикВысота в метрах
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

В этом случае средний рост класса будет 1,81. Если теперь мы посмотрим на максимальную высоту (2,20) и минимальную высоту (1,62) и расстояние между ними до среднего значения, мы увидим, что оно составляет 0,39 и 0,18 соответственно. В этом случае среднее значение больше не находится примерно в середине диапазона.

Эффект двух самых крайних наблюдений (2.18 и 2.20) привел к смещению среднего арифметического в сторону максимального значения распределения.

В этом примере мы видим эффект, который имеют выбросы, и то, как они могут исказить расчет среднего значения.

Как обнаружить выбросы?

Как исправить эффект выбросов

В подобных ситуациях, когда есть аномальные значения, которые существенно отличаются от остальных, медиана является лучшей оценкой, чтобы знать, в какой точке сосредоточено большее количество наблюдений.

В случае обоих распределений и поскольку у нас есть четное количество значений, мы не можем взять именно то значение, которое делит распределение вдвое, для вычисления медианы. При этом после упорядочивания значений от наименьшего к наибольшему мы возьмем пятое и шестое наблюдение (оба оставляют по 4 наблюдения с каждой стороны) и вычислим медиану следующим образом:

Образец 1:

1,75+1,72/2 = 1,73

Образец 2:

1,79+1,71/2 = 1,75

Как мы видим, в выборке № 1 при отсутствии выбросов или аномальных наблюдений медиана составляет 1,73 и совпадает со средним значением. Напротив, для образца 2 среднее значение составляет 1,75. Как мы видим, это значение дальше от средней высоты, которая составляла 1,81, и дает нам более качественную оценку точки, чтобы приблизительно знать, в какой точке сосредоточено большее количество наблюдений.

Точечная оценка

Популярные посты

Даниэль Лакаль поделился с нами своим видением Брексита, нефти и экономики Испании.

Мы встречаемся с одним из самых влиятельных экономистов на данный момент. Даниэль Лакаль рассказывает нам о различных экономических факторах, влияющих на мир. После последствий Brexit трудоустройство в Испании, в мире инвестиционных фондов и на рынке нефти. Даниэль Лакаль, один из 20 самых влиятельных экономистов мираПодробнее…

Латиноамериканцы сокращают свое потребление в США из-за политики Трампа

Граждане Латинской Америки заметно сократили потребление в Соединенных Штатах из-за репрессивной иммиграционной политики Дональда Трампа. Их страх перед вмешательством полиции США заставил их начать экономить деньги, чтобы покрыть судебные издержки и судебные издержки в случае судебного преследования. Как мы смогли наблюдать во всех из них, Подробнее…

Крупнейшие технологические компании Америки

Еще год кажется, что у Apple все еще нет достойного соперника, чтобы отнять первое место в рейтинге крупнейших технологических компаний США. Имея рыночную капитализацию 686,97 и 313,97 млрд евро, он входит в первую строчку рейтинга, за ним следует Alphabet (чья самая известная дочерняя компанияПодробнее…