Коэффициент детерминации (R в квадрате)
Коэффициент детерминации - это доля от общей дисперсии переменной, объясняемой регрессией. Коэффициент детерминации, также называемый R в квадрате, отражает степень соответствия модели переменной, которую она намеревается объяснить.
Важно знать, что результат коэффициента детерминации колеблется между 0 и 1. Чем ближе его значение к 1, тем больше соответствие модели переменной, которую мы пытаемся объяснить. И наоборот, чем ближе к нулю, тем менее плотной будет модель и, следовательно, менее надежной.

В предыдущем выражении у нас есть дробь. Итак, по частям. Сначала разберем числитель, то есть верхнюю часть.

Тем, кто не знает выражения дисперсии, рекомендую прочитать статью об этом. Те, кто знает это, могут понять, что это выражение дисперсии, но с двумя фундаментальными отличиями.
Первое отличие состоит в том, что буква Y имеет циркумфлекс или то, что учителя дидактически называют «шляпой». Эта шляпа детализирует то, что Y - это оценка модели того, что, согласно объясняющим переменным, стоит Y, но это не реальное значение Y, а оценка Y.
Во-вторых, необходимо разделить на T. Что в других случаях обозначается как N или количество наблюдений. Однако, поскольку формула знаменателя также будет содержать его, мы удалим знаменатели (внизу) из обеих формул, чтобы упростить выражение. Так с ним легче работать.
Далее мы собираемся провести такой же анализ с частью знаменателя (нижняя часть).

В этом случае единственным отличием от исходной формулы дисперсии является отсутствие ее знаменателя. То есть мы не делим на T или N. Таким образом, как только две части общего выражения R в квадрате или коэффициенте детерминации были объяснены, мы увидим пример.
Коэффициент вариацииКоэффициент линейной корреляцииРегрессионный анализТолкование коэффициента детерминации
Предположим, мы хотим объяснить количество голов, забитых Криштиану Роналду, исходя из количества сыгранных им игр. Мы предполагаем, что чем больше игр сыграно, тем больше голов он забьет. Данные относятся к последним 8 сезонам. Таким образом, после извлечения данных модель дает следующую оценку:

Как видно из графика, связь положительная. Чем больше игр будет сыграно, тем больше голов он забьет в сезоне. Подгонка, основанная на вычислении R-квадрата, составляет 0,835. Это означает, что это модель, оценки которой достаточно хорошо соответствуют реальной переменной. Хотя технически это было бы неправильно, мы могли бы сказать что-то вроде того, что модель объясняет 83,5% реальной переменной.
Коэффициент детерминации задачи
Проблема коэффициента детерминации и причина, по которой возникает скорректированный коэффициент детерминации, заключается в том, что он не наказывает включение несущественных объясняющих переменных. То есть, если в модель добавить пять независимых переменных, которые мало связаны с головами, которые Криштиану Роналду забивает в сезоне, R-квадрат увеличится. Вот почему многие эконометрические, статистические и математические эксперты выступают против использования R в квадрате в качестве репрезентативной меры качества истинного соответствия.
Скорректированный коэффициент детерминации
Скорректированный коэффициент детерминации (скорректированный R в квадрате) - это мера, которая определяет процент, объясняемый дисперсией регрессии по отношению к дисперсии объясненной переменной. То есть то же, что и R в квадрате, но с разницей: скорректированный коэффициент детерминации ухудшает включение переменных.
Как мы уже говорили, коэффициент детерминации модели увеличивается, даже если переменные, которые мы включаем, не актуальны. Поскольку это проблема, чтобы попытаться ее решить, скорректированный квадрат R будет таким, что:

В формуле N - размер выборки, а k - количество независимых переменных. По математическому выводу, чем выше значение k, тем дальше скорректированный R-квадрат будет от нормального R-квадрата. И наоборот, при более низких значениях k, центральная дробь будет ближе к 1 и, следовательно, скорректированный квадрат R и нормальный квадрат R будут более похожими.
Помня, что k - это количество независимых переменных, мы заключаем, что оно не может быть равным нулю. Если бы он был равен нулю, не было бы модели. По крайней мере, нам придется объяснять одну переменную в терминах другой переменной. Поскольку k должно быть не менее 1, скорректированный R-квадрат и нормальный R-квадрат не могут иметь одинаковое значение. Более того, скорректированный R-квадрат всегда будет меньше, чем нормальный R-квадрат.