Проба Колмогорова - Смирнов (K-S)

Содержание:

Проба Колмогорова - Смирнов (K-S)
Проба Колмогорова - Смирнов (K-S)
Anonim

Тест Колмогорова-Смирнова (K-S) - это непараметрический тест, который направлен на определение того, соответствует ли частота двух разных наборов данных одинаковому распределению вокруг их среднего значения.

Другими словами, тест Колмогорова-Смирнова (K-S) - это тест, который адаптируется к форме данных и используется для проверки того, соответствуют ли две разные выборки одному и тому же распределению.

Почему это непараметрический тест?

Прелесть «непараметрической» характеристики заключается в том, что она соответствует данным и, следовательно, распределениям, которые могут соответствовать частоте данных. Кроме того, эта функция избавляет нас от необходимости предполагать априори какому распределению следует образец.

Важность теста K-S

Сколько раз нам давали две выборки и недолго думая вычисляли коэффициент корреляции Пирсона? Другими словами, если мы хотим увидеть линейную связь между двумя наборами данных, было бы справедливо вычислить корреляцию, верно?

Этот вывод был бы верным, если бы распределения двух выборок следовали нормальному распределению. Коэффициент корреляции предполагает, что распределения являются нормальными, если мы пропустим это предположение, результат коэффициента корреляции будет неверным. Для проверки гипотез и доверительных интервалов мы также предполагаем, что популяция распределена по нормальному распределению.

Как и во всех проверках гипотез, связанных со статистикой, для получения статистически значимых результатов важно иметь большой объем данных. Мы можем ошибочно отвергнуть нулевую гипотезу, потому что выборка мала. Кроме того, также важно, что в этой выборке есть несколько крайних случаев (выбросы, на английском языке), чтобы обеспечить единообразие результата теста.

Тестовая процедура

Порядок действий следующих шагов.

Гипотеза

Первым шагом будет проверка того, что оба образца имеют одинаковое распределение. Для этого мы проводим проверку гипотезы, предполагая, что обе выборки имеют одинаковое распределение, против альтернативной гипотезы о том, что они разные.

Статистическая

Мы работаем с кумулятивными функциями распределения двух выборок F1(x) и F2(Икс):

Не паникуй! Спокойно разбираем приведенную выше формулу:

  • Важной частью формулы является знак различия (-). Ищем вертикальные различия в распределениях. Итак, мы вычтем обе кумулятивные функции распределения.
  • В оператор "макс". Мы заинтересованы в поиске наибольшей или максимальной разницы, чтобы увидеть, насколько разными могут быть два распределения.
  • В абсолютная величина. Мы используем абсолютное значение, чтобы порядок операторов не влиял на результат. Другими словами, не имеет значения, какая F (x) имеет отрицательный знак:

Критическое значение

Для больших выборок существует приближение к критическому значению K-S, которое зависит от уровня значимости (%):

Где1 и н2 размер выборки для выборки F1(x) и F2(x) соответственно.

Некоторые расчетные критические значения:

Правило отклонения

Приложение

Очень часто мы хотим проверить, достаточно ли отличаются два распределения друг от друга, когда мы хотим построить сценарии прогнозирования (мы работаем с двумя образцами) или когда мы хотим оценить, какое распределение лучше всего соответствует данным (мы работаем только с одним образцом).