Категориальная переменная - это переменная, которая позволяет классифицировать ряд данных с помощью фиксированных значений, связанных с определенным качеством или категорией.
Категориальная переменная, в отличие от кардинальных или непрерывных переменных (которые допускают численные вычисления), классифицирует людей или случаи. Обычно они принимают значения, представленные целыми числами, такими как единица или ноль, но это всего лишь представления.
В примере мы увидим это более подробно.
Различия между категориальной и непрерывной переменной
Есть некоторые различия между категориальной переменной и непрерывной или кардинальной переменной, которую следует знать. Посмотрим самые актуальные.
- Во-первых, категориальная переменная используется для группировки, а непрерывная переменная - для подсчета. Другими словами, первый позволяет формировать категории с помощью ряда данных. Например, пол или количество детей. Второй дает нам числовую информацию. Например, возраст.
- Кардинальная переменная допускает числовые вычисления, остальные - нет. Таким образом, в первом случае мы можем узнать средние значения или отклонения, а в другом - только некоторые данные, такие как режим или процентное соотношение категорий.
- Категориальные очень полезны для получения качественной информации, то есть некоторого качества данных. Непрерывные предоставляют нам количественные данные, то есть количества и значения, представленные числами.
Статистические методы для категориальных переменных
Затем давайте посмотрим, какие статистические методы наиболее часто используются для категориальных переменных, сравнивая их с непрерывными или кардинальными переменными.
- Описательная статистика: В этом типе переменных анализ обычно основывается, среди прочего, на гистограммах и процентных диаграммах. Кардиналы позволяют применять методы анализа для расчета статистики положения, например квантилей, или статистики дисперсии, например дисперсии.
- Противопоставление гипотез: В категориальном режиме результаты могут быть экстраполированы с помощью непараметрических тестов гипотез. С другой стороны, непрерывные используют параметрические контрасты, которые также можно вывести.
- Техники регрессии: В этом случае для первого используется, среди прочего, логистическая регрессия или аналогичные. Для другого типа переменных наиболее часто используется метод линейной регрессии.
Пример категориальной переменной
В заключение давайте рассмотрим очень распространенный пример в маркетинге. Представим, что мы хотим продать товар и заинтересованы в семейном положении.
Для этого мы назначим 1 одиноким, 2 женатым, 3 разведенным, 4 партнерам и 5 другим.
Посмотрим на изображение и прокомментируем его:
В нем мы видим, что самый высокий процент людей - одинокие, состоящие в браке и разведенные, а два других варианта составляют всего 5%.
Как видим, категориальные переменные полезны для группировки. Гистограмма позволяет нам лучше наблюдать эти проценты, поскольку легче сравнивать размер столбцов.