Кластерный анализ - что это такое, определение и понятие

Содержание:

Anonim

Кластерный анализ - это набор многомерных статистических методов, цель которых - сгруппировать набор случаев или отдельных лиц в кластеры или кластеры.

Таким образом, кластерный анализ представляет собой тип статистической группировки. Цель состоит в том, чтобы сделать данные в каждом кластере как можно более похожими друг на друга и как можно более разными по отношению к другим группам. Это также можно сделать с помощью переменных.

Преобразование данных в кластерном анализе

Одна из проблем, с которыми мы сталкиваемся при группировании данных, заключается в том, что данные иногда имеют разные единицы измерения. По этой причине необходимо выполнить предварительный анализ кластера, который позволяет кластеризацию.

Самый распространенный метод - стандартизация. Это используется для преобразования данных, чтобы они имели одинаковые единицы измерения. Необходимо учитывать два правила: двоичные переменные не стандартизированы и, если они категоричны, они становятся двоичными (наличие / отсутствие).

Методы кластерного анализа

Существует множество методов для выполнения кластерного анализа, но на сайте Economy-Wiki.com, следуя принципу простоты, который нас характеризует, мы увидим наиболее актуальные в схематическом виде.

Иерархические методы

Первой классификацией могут быть иерархические или неиерархические методы. Первые группируют людей в иерархические фазы (отсюда и их название). Таким образом, только один объект меняет группу за раз, остальные остаются в том же месте.

Они, в свою очередь, подразделяются на:

Агломерационные методы

Он состоит в том, чтобы каждый раз группировать людей в меньшее количество кластеров. Он начинается с количества групп, равного количеству случаев, и уменьшается.

Наиболее известны:

  • Метод ближайшего соседа: В этом случае вы используете алгоритм для группировки данных. То, что вы ищете, - это минимальное расстояние между ближайшими людьми. Он очень чувствителен к данным, которые могут вызывать так называемый «шум». Метод самого дальнего соседа аналогичен.
  • Средний метод между группами: Он вычисляет среднее расстояние между людьми в группе и одним из них в частности. Это очень полезно для уменьшения так называемого «шума».
  • Метод Уорда: Что он делает, так это добавляет квадраты отклонений между каждым человеком и средним значением его кластера, чтобы избежать потери информации. Это один из самых известных и имеет преимущества метода, основанного на среднем, но большей способности распознавания.

Диссоциативные методы

В этом случае вы делите. Он начинается с одного кластера, а подразделения предлагаются на основе ряда требований.

Наиболее распространены:

  • Межгрупповое среднее, метод ближайшего соседа и самого дальнего соседа: Эти три метода аналогичны предыдущему случаю, но используют диссоциативный метод. То есть на этот раз мы делаем отдельные, а не групповые.
  • Центроидный метод: Широко используется в задачах оптимизации размещения объектов. Используйте этот тип анализа, чтобы найти наиболее подходящие.

Неиерархические методы

В этом случае они начинают с заранее заданного решения. Это отправная точка для кластерного анализа. Таким образом, группы создаются заранее, и каждое дело будет помещено в одну из них, в зависимости от его характеристик. В свою очередь, мы можем разделить их на другие подгруппы.

  • Способы переназначения: Наиболее актуальными являются методы центроидов, такие как k-средних. Те из медиоидов, как PAM. Или динамических облаков.
  • Прямые методы: Наиболее важным является блочная кластеризация, широко используемая в интеллектуальном анализе данных.
  • Восстановительные методы: Они основаны на факторном анализе.
  • Методы поиска плотности: С одной стороны, это типологические подходы, такие как модальный анализ. С другой стороны, вероятностные, как у Вольфа.

Примеры кластерного анализа

Посмотрим, наконец, на несколько примеров приложений кластерного анализа.

  • Давайте представим, что у нас есть группа стран, которую мы хотим сгруппировать на основе определенных макроэкономических переменных, таких как инфляция или безработица. Мы можем использовать этот тип анализа, чтобы сделать однородные группы, например, более или менее развитые страны.
  • Другим примером может быть ряд потребителей с определенными социально-демографическими характеристиками. Идея состоит в том, чтобы создавать группы с похожими людьми, которые, в свою очередь, сильно отличаются друг от друга.
  • Но помимо экономики кластерный анализ полезен и в других науках. Например, в биологии, чтобы классифицировать виды, или в геологии, чтобы сделать то же самое с минералами.