Ошибка сбора данных возникает, когда мы ошибочно выбираем субъектов, которые будут принадлежать к анализируемой случайной выборке.
У нас есть проблема, когда этот выбор делает случайную выборку не репрезентативной для статистической совокупности. И поэтому любой результат, который мы получаем из выборки, является смещенным, и мы не можем утверждать, что он был выполнен в анализируемой совокупности.В рамках этого смещения мы можем дифференцировать различные типы, которые мы объясним ниже.
Предвзятость выживания
Происходит, когда данные исключаются из анализа, поскольку на момент анализа они больше не существуют.
Другими словами, мы сосредотачиваемся только на данных, которые существуют, и отбрасываем те, которые ранее существовали в популяции. На практике существует множество примеров такого рода предвзятости. Один из них - проводить опросы только среди клиентов компании, исключая потенциальных клиентов. Другой вариант - оценить поведение фондовых индексов, исключив из анализа компании, которые были и больше не входят в этот индекс.
Решение этого предубеждения очень простое. Проведите исследование со всеми данными, как существующими, так и ранее существовавшими.
Предвзятость предвкушения
Это происходит, когда анализ выполняется с использованием данных, недоступных на момент анализа. Примером может служить анализ взаимосвязи цены акции с некоторой переменной финансового баланса. Цена акций - это динамическая переменная, по которой мы располагаем верной информацией во время анализа. Однако переменные, указанные в балансе, статичны, и поэтому нам следует дождаться публикации финансовой отчетности для этого анализа.
Предположим, мы хотим изучить взаимосвязь между ценой и капиталом ряда компаний в конце финансового года. В этом случае у нас не будет данных о чистой стоимости активов до публикации финансовой отчетности. Публикация, которая обычно выдается через пару месяцев после окончания финансового года.
Следовательно, решением этой проблемы было бы дождаться публикации финансовой отчетности. И проведите анализ с опубликованными данными вместе с ценой на момент публикации.
Смещение периода времени
Эта ошибка возникает, когда период, выбранный для данных, слишком короткий или слишком длинный. Если он слишком короткий, анализ может отразить конкретные результаты, которые были достигнуты только за этот период. То есть они не будут репрезентативными в течение более длительного периода времени.
Представьте себе пятилетний период, когда небольшие компании на фондовом рынке опережают крупные компании. Из этого можно сделать вывод, что в будущем небольшие компании всегда будут лучше крупных. Но за такой короткий промежуток времени сделать такие выводы невозможно. В основном из-за того, что в более длительные периоды времени ситуация могла измениться. Следовательно, полученные результаты смещены в сторону этого сокращенного периода времени.