Коллектив авторов

Метод. Московский ежегодник трудов из обществоведческих дисциплин. Выпуск 4: Поверх методологических границ


Скачать книгу

объекты внутри одного кластера более похожи друг на друга, чем на объекты из других кластеров [Айвазян, Мхитарян, 2001, с. 484].

      Методы кластерного анализа актуальны, когда возникает задача классификации в признаковом пространстве большой размерности, что естественно, ведь если признаков, которыми описываются объекты, всего два, то получить группировку можно с помощью визуализации данных на диаграмме рассеяния.

      Являясь описательным методом статистики, кластерный анализ позволяет проанализировать внутренние связи между единицами в группах, он может быть особенно полезен при исследовании малоизученных явлений. С его помощью можно описать большой объем информации, выявить сходную динамику или структуру распределения показателей.

      Существенным достоинством метода является отсутствие каких-либо допущений о характере распределения данных и априорной информации о числе групп. Все, что необходимо для реализации кластерного анализа – задать меру схожести объектов и правило объединения в кластеры. Несмотря на то, что многие методы кластерного анализа довольно просты, их активное использование стало возможным только с появлением необходимых вычислительных мощностей, потому что эффективное решение задачи поиска кластеров требует большого числа арифметических действий [Айвазян, Мхитарян, 2001, с. 484].

      Различаются иерархические и итеративные методы кластеризации. Агломеративные иерархические методы предполагают последовательное объединение объектов в группы и групп между собой до тех пор, пока все объекты не окажутся в одном кластере. Дивизивные, наоборот, построены на последовательном разбиении одного кластера со всеми объектами на более малочисленные группы.

      К итеративным методам кластерного анализа относится метод k-средних. В отличие от иерархических методов, он требует предварительного определения количества кластеров, которые будут сформированы. Смысл процедуры состоит в итерационном уточнении «центров тяжести» искомых классов и классификации наблюдений в соответствии с расстоянием до ближайшего «эталонного» центра. Но итеративные методы значительно более трудоемки с точки зрения вычислений и менее популярны.

      Мерой схожести (однородности) обычно принимается величина, обратная расстоянию между объектами, ведь если объекты в многомерном пространстве находятся рядом, то разумно предположить, что они похожи друг на друга. Возможных мер расстояния между точками (объектами) i и j довольно много, вот только некоторые из них:

      1) Евклидово, ,

      2) квадрат Евклидова ,

      3) расстояние Манхеттен ,

      где xi (1), xi (2), .., xi (m)m количественных признаков, которыми описываются объекты.

      Если признаки измерены на категориальном уровне, тогда мерами схожести будут такие метрики, которые основаны на совпадении или несовпадении значений по каждому