АкушерствоАнатомияАнестезиологияВакцинопрофилактикаВалеологияВетеринарияГигиенаЗаболеванияИммунологияКардиологияНеврологияНефрологияОнкологияОториноларингологияОфтальмологияПаразитологияПедиатрияПервая помощьПсихиатрияПульмонологияРеанимацияРевматологияСтоматологияТерапияТоксикологияТравматологияУрологияФармакологияФармацевтикаФизиотерапияФтизиатрияХирургияЭндокринологияЭпидемиология
|
Тема 11. Кластерный анализ
11.1. Постановка задачи кластерного анализа и общая схема процедуры его применения в психологическом исследовании
Кластерный анализ является математическим методом, предназначенным для решения задач классификации; его цель состоит в разделении эмпирической выборки на ряд подмножеств (обычно непересекающихся), которые называются кластерами, а иногда – группами, классами, таксонами. Термин «кластер» (от англ. cluster) означает «гроздь, пучок, скопление, группа элементов, характеризуемых каким-либо общим свойством»; а термин «таксон» (от англ. taxon - систематизированная группа любой категории; термин биологического происхождения [9. C.145]. Подразумевается, что элементы, объединенные в один кластер, являются в том или ином смысле более похожими друг на друга, более близкими по каким-либо характеристикам по сравнению с остальными. При этом кластерный анализ опирается, как правило, только на данные о самой эмпирической выборке и не использует никаких дополнительных априорных предположений: например, о характере распределения вероятностей в генеральной совокупности. Более того, после построения классификации ее результаты считаются окончательными и не пересматриваются (для данной эмпирической выборки данных и примененного конкретного метода кластерного анализа, хотя при получении дополнительных данных или при выборе другого метода классификация, естественно, может быть построена заново). В силу этого кластерный анализ часто называют классификацией без обучения (в отличие от дискриминантного анализа, который называют классификацией с обучением). Из других названий, часто применяемых как синонимы кластерного анализа (хотя синонимичность некоторых из них иногда вызывает дискуссии среди специалистов: см., например, [4; 5; 9; 17; 23]), можно отметить следующие: кластер-анализ, автоматическая классификация, таксономия, распознавание образов без обучения.
Кластерный анализ является сравнительно «молодым» методом анализа данных: его теоретические основы были развиты, в основном, лишь в середине XX века (и продолжают интенсивно развиваться до настоящего времени), а широкое распространение, в частности, в психологических исследованиях он получил, фактически, лишь после массового внедрения компьютеров и, особенно, после появления персональных компьютеров, т.е. примерно к 80-м годам прошлого века. В то же время, столь недавнее появление с лихвой компенсируется бурным (интенсивным и экстенсивным) развитием этого направления: за короткое время кластерный анализ стал одним из наиболее популярных методов анализа данных в самых различных областях познания и практической деятельности, включая и психологию; количество научных публикаций, посвященных кластерному анализу, в мире ежегодно исчисляется тысячами.
В общем виде процедура кластерного анализа вполне доступна для понимания исследователей и практиков, не имеющих специальной математической подготовки (например, психологов). Однако количество различных методов кластерного анализа и конкретных постановок задач кластеризации весьма велико, и этот факт, по-видимому, является одной из причин того, что в отечественной литературе работы, посвященные применению кластерного анализа в психологических исследованиях, встречаются крайне редко. Учитывая такую ситуацию и, фактически, пионерский характер нашего пособия в данном вопросе, мы считаем целесообразным предварительно познакомить читателя с общим обзором процедуры кластерного анализа и базовой (хотя и несколько упрощенной, но вполне достаточной для психолога) классификацией его методов. Знание этих вопросов позволит читателю уверенно ориентироваться при использовании конкретных методов кластерного анализа, реализованных в статистических пакетах программ.
Методы кластерного анализа разнообразны и могут быть классифицированы по различным основаниям. Чтобы выделить такие основания, сформулируем в обобщенном виде процедуру кластерного анализа, применяемую в психологическом исследовании, предусматривающую ряд этапов и представленную в табл. 11.1-1.
Таблица 11.1-1
Общая схема процедуры применения кластерного анализа в психологическом исследовании
Номер этапа
| Содержание этапа
|
| Получение с помощью определенных измерительных шкал набора количественных эмпирических данных и его представление в виде матрицы «объект – признак».
|
| Принятие исследователем решения о направлении кластеризации, то есть о том, что именно будет подвергаться классификации: обследованные объекты (респонденты, случаи), измеренные признаки (психологические переменные), или и то, и другое одновременно.
|
| Представление эмпирических данных в виде точек многомерного метрического пространства, определяемых своими координатами; одновременный выбор метрики (или псевдометрики) этого пространства, то есть меры сходства или различия между его точками.
|
| Выбор глобальной стратегии кластеризации, то есть основного принципа разделения выборки на кластеры.
|
| Выбор конкретного алгоритма кластеризации, предусматривающего выбор мер сходства или различия между кластерами (способа определения межкластерных расстояний), а также определенного способа оценки качества кластеризации.
|
| Выполнение собственно кластеризации (разбиения исходной выборки на кластеры).
|
| Психологическая интерпретация полученных результатов кластеризации.
|
Рассмотрим эти этапы подробнее, одновременно выделяя основания классификации методов кластеризации и рассматривая классы методов, выделенные по соответствующему основанию.
11.2. Классификация методов кластерного анализа по измерительным шкалам, направлению кластеризации и используемой метрике
Первые три этапа процедуры кластеризации целесообразно рассмотреть совместно, так как и в теории, и, тем более, на практике они тесно взаимосвязаны между собой.
Получение исследователем выборки эмпирических данных, представляющих собой результаты измерения ряда признаков (например, характеристик психических процессов, состояний, свойств)
, выполненного у некоторой совокупности объектов (например, респондентов) , с необходимостью предполагает
наличие определенных измерительных методик. Согласно этим методикам результаты измерения могут быть представлены в измерительной шкале того или иного типа (номинальной, порядковой, интервальной, отношений). Как и во многих других случаях, предпочтительными с точки зрения математических оснований здесь являются интервальные шкалы и шкалы отношений, но, в то же время, в кластерном анализе, в отличие, например, от факторного, дискриминантного или дисперсионного анализа, требования к типу шкалы являются не такими жесткими: они, скорее, влияют на выбор конкретного метода кластеризации, а не на принципиальную допустимость кластеризации как таковой.
Нередко в психологических исследованиях результаты измерения различных признаков получают в шкалах разных типах: например, часть признаков измерена в интервальной шкале, а другая часть – в номинальной. В подобных случаях наличия смешанного типа шкал вопрос о выборе подходящего метода кластеризации должен решаться с большой осторожностью. Теоретические основы использования в кластерном анализе смешанных шкал исследованы недостаточно, поэтому велика опасность получения некорректных результатов. Наиболее надежными выходами из данной ситуации являются следующие возможности:
· вполне корректным здесь будет применение метода, предназначенного для самого низшего из имеющихся типов шкал (в приведенном примере – для номинальной), однако для использования подобных методов иногда необходимо соответствующим образом преобразовывать результаты, полученные в шкалах более высокого уровня;
· можно на последующих этапах процедуры кластеризации выбрать метрику (меру расстояния), специально предназначенную для шкал смешанного типа, однако набор таких метрик весьма ограничен и применяются они относительно редко;
· и, наконец, наиболее простой путь – стремиться избегать использования шкал разного типа при получении данных, предназначенных для кластеризации.
Итак, все методы кластеризации теоретически можно было бы разделить на виды по типу измерительной шкалы, в которой получены эмпирические данные, различая, например, методы, предназначенные для интервальных, порядковых и номинальных шкал. Однако такое деление было бы преждевременным, так как сам по себе тип шкалы еще не определяет характера всей процедуры кластеризации в целом. Точнее, использованные при получении эмпирических данных измерительные шкалы влияют на выбор подходящего метода кластерного анализа не прямо, а косвенно – через выбор метрики необходимого для осуществления кластеризации метрического пространства, обсуждаемый ниже.
Полученные эмпирические данные должны быть представлены в виде матрицы «объект – признак», то есть прямоугольной таблицы чисел, строки которой соответствуют измеренным объектам (например, респондентам), а столбцы – измеряемым признакам (например, характеристикам психических процессов, состояний или свойств). Исследователь сначала заносит полученные данные в таблицу «объект-признак», общий вид которой показан в табл. 11.2-1. Матрица «объект-признак» будет отличаться от таблицы «объект-признак» только тем, что в матрице явно не присутствуют заголовки строк и столбцов. Таким образом, таблице 11.2-1 будет соответствовать матрица «объект-признак» (в фундаментальном справочнике [9. С.143] – матрица «объект-свойство»), имеющая размеры , (то есть, в общем случае, прямоугольная), обозначенная через и приведенная в формуле 11.2-1.
Таблица 11.2-1
Дата добавления: 2015-01-18 | Просмотры: 2528 | Нарушение авторских прав
1 | 2 | 3 | 4 | 5 | 6 | 7 |
|