Акушерство Анатомия Анестезиология Вакцинопрофилактика Валеология Ветеринария Гигиена Заболевания Иммунология Кардиология Неврология Нефрология Онкология Оториноларингология Офтальмология Паразитология Педиатрия Первая помощь Психиатрия Пульмонология Реанимация Ревматология Стоматология Терапия Токсикология Травматология Урология Фармакология Фармацевтика Физиотерапия Фтизиатрия Хирургия Эндокринология Эпидемиология

Тема 11. Кластерный анализ

Прочитайте:

11.1. Постановка задачи кластерного анализа
и общая схема процедуры его применения
в психологическом исследовании

Кластерный анализ является математическим методом, предназначенным для решения задач классификации; его цель состоит в разделении эмпирической выборки на ряд подмножеств (обычно непересекающихся), которые называются кластерами, а иногда – группами, классами, таксонами. Термин «кластер» (от англ. cluster) означает «гроздь, пучок, скопление, группа элементов, характеризуемых каким-либо общим свойством»; а термин «таксон» (от англ. taxon - систематизированная группа любой категории; термин биологического происхождения [9. C.145]. Подразумевается, что элементы, объединенные в один кластер, являются в том или ином смысле более похожими друг на друга, более близкими по каким-либо характеристикам по сравнению с остальными. При этом кластерный анализ опирается, как правило, только на данные о самой эмпирической выборке и не использует никаких дополнительных априорных предположений: например, о характере распределения вероятностей в генеральной совокупности. Более того, после построения классификации ее результаты считаются окончательными и не пересматриваются (для данной эмпирической выборки данных и примененного конкретного метода кластерного анализа, хотя при получении дополнительных данных или при выборе другого метода классификация, естественно, может быть построена заново). В силу этого кластерный анализ часто называют классификацией без обучения (в отличие от дискриминантного анализа, который называют классификацией с обучением). Из других названий, часто применяемых как синонимы кластерного анализа (хотя синонимичность некоторых из них иногда вызывает дискуссии среди специалистов: см., например, [4; 5; 9; 17; 23]), можно отметить следующие: кластер-анализ, автоматическая классификация, таксономия, распознавание образов без обучения.

Кластерный анализ является сравнительно «молодым» методом анализа данных: его теоретические основы были развиты, в основном, лишь в середине XX века (и продолжают интенсивно развиваться до настоящего времени), а широкое распространение, в частности, в психологических исследованиях он получил, фактически, лишь после массового внедрения компьютеров и, особенно, после появления персональных компьютеров, т.е. примерно к 80-м годам прошлого века. В то же время, столь недавнее появление с лихвой компенсируется бурным (интенсивным и экстенсивным) развитием этого направления: за короткое время кластерный анализ стал одним из наиболее популярных методов анализа данных в самых различных областях познания и практической деятельности, включая и психологию; количество научных публикаций, посвященных кластерному анализу, в мире ежегодно исчисляется тысячами.

В общем виде процедура кластерного анализа вполне доступна для понимания исследователей и практиков, не имеющих специальной математической подготовки (например, психологов). Однако количество различных методов кластерного анализа и конкретных постановок задач кластеризации весьма велико, и этот факт, по-видимому, является одной из причин того, что в отечественной литературе работы, посвященные применению кластерного анализа в психологических исследованиях, встречаются крайне редко. Учитывая такую ситуацию и, фактически, пионерский характер нашего пособия в данном вопросе, мы считаем целесообразным предварительно познакомить читателя с общим обзором процедуры кластерного анализа и базовой (хотя и несколько упрощенной, но вполне достаточной для психолога) классификацией его методов. Знание этих вопросов позволит читателю уверенно ориентироваться при использовании конкретных методов кластерного анализа, реализованных в статистических пакетах программ.

Методы кластерного анализа разнообразны и могут быть классифицированы по различным основаниям. Чтобы выделить такие основания, сформулируем в обобщенном виде процедуру кластерного анализа, применяемую в психологическом исследовании, предусматривающую ряд этапов и представленную в табл. 11.1-1.

Таблица 11.1-1

Общая схема процедуры применения кластерного
анализа в психологическом исследовании

Номер этапа	Содержание этапа
	Получение с помощью определенных измерительных шкал набора количественных эмпирических данных и его представление в виде матрицы «объект – признак».
	Принятие исследователем решения о направлении кластеризации, то есть о том, что именно будет подвергаться классификации: обследованные объекты (респонденты, случаи), измеренные признаки (психологические переменные), или и то, и другое одновременно.
	Представление эмпирических данных в виде точек многомерного метрического пространства, определяемых своими координатами; одновременный выбор метрики (или псевдометрики) этого пространства, то есть меры сходства или различия между его точками.
	Выбор глобальной стратегии кластеризации, то есть основного принципа разделения выборки на кластеры.
	Выбор конкретного алгоритма кластеризации, предусматривающего выбор мер сходства или различия между кластерами (способа определения межкластерных расстояний), а также определенного способа оценки качества кластеризации.
	Выполнение собственно кластеризации (разбиения исходной выборки на кластеры).
	Психологическая интерпретация полученных результатов кластеризации.

Рассмотрим эти этапы подробнее, одновременно выделяя основания классификации методов кластеризации и рассматривая классы методов, выделенные по соответствующему основанию.

11.2. Классификация методов кластерного анализа
по измерительным шкалам, направлению
кластеризации и используемой метрике

Первые три этапа процедуры кластеризации целесообразно рассмотреть совместно, так как и в теории, и, тем более, на практике они тесно взаимосвязаны между собой.

Получение исследователем выборки эмпирических данных, представляющих собой результаты измерения ряда признаков (например, характеристик психических процессов, состояний, свойств)

, выполненного у некоторой совокупности объектов (например, респондентов) , с необходимостью предполагает

наличие определенных измерительных методик. Согласно этим методикам результаты измерения могут быть представлены в измерительной шкале того или иного типа (номинальной, порядковой, интервальной, отношений). Как и во многих других случаях, предпочтительными с точки зрения математических оснований здесь являются интервальные шкалы и шкалы отношений, но, в то же время, в кластерном анализе, в отличие, например, от факторного, дискриминантного или дисперсионного анализа, требования к типу шкалы являются не такими жесткими: они, скорее, влияют на выбор конкретного метода кластеризации, а не на принципиальную допустимость кластеризации как таковой.

Нередко в психологических исследованиях результаты измерения различных признаков получают в шкалах разных типах: например, часть признаков измерена в интервальной шкале, а другая часть – в номинальной. В подобных случаях наличия смешанного типа шкал вопрос о выборе подходящего метода кластеризации должен решаться с большой осторожностью. Теоретические основы использования в кластерном анализе смешанных шкал исследованы недостаточно, поэтому велика опасность получения некорректных результатов. Наиболее надежными выходами из данной ситуации являются следующие возможности:

· вполне корректным здесь будет применение метода, предназначенного для самого низшего из имеющихся типов шкал (в приведенном примере – для номинальной), однако для использования подобных методов иногда необходимо соответствующим образом преобразовывать результаты, полученные в шкалах более высокого уровня;

· можно на последующих этапах процедуры кластеризации выбрать метрику (меру расстояния), специально предназначенную для шкал смешанного типа, однако набор таких метрик весьма ограничен и применяются они относительно редко;

· и, наконец, наиболее простой путь – стремиться избегать использования шкал разного типа при получении данных, предназначенных для кластеризации.

Итак, все методы кластеризации теоретически можно было бы разделить на виды по типу измерительной шкалы, в которой получены эмпирические данные, различая, например, методы, предназначенные для интервальных, порядковых и номинальных шкал. Однако такое деление было бы преждевременным, так как сам по себе тип шкалы еще не определяет характера всей процедуры кластеризации в целом. Точнее, использованные при получении эмпирических данных измерительные шкалы влияют на выбор подходящего метода кластерного анализа не прямо, а косвенно – через выбор метрики необходимого для осуществления кластеризации метрического пространства, обсуждаемый ниже.

Полученные эмпирические данные должны быть представлены в виде матрицы «объект – признак», то есть прямоугольной таблицы чисел, строки которой соответствуют измеренным объектам (например, респондентам), а столбцы – измеряемым признакам (например, характеристикам психических процессов, состояний или свойств). Исследователь сначала заносит полученные данные в таблицу «объект-признак», общий вид которой показан в табл. 11.2-1. Матрица «объект-признак» будет отличаться от таблицы «объект-признак» только тем, что в матрице явно не присутствуют заголовки строк и столбцов. Таким образом, таблице 11.2-1 будет соответствовать матрица «объект-признак» (в фундаментальном справочнике [9. С.143] – матрица «объект-свойство»), имеющая размеры , (то есть, в общем случае, прямоугольная), обозначенная через и приведенная в формуле 11.2-1.

Таблица 11.2-1

Дата добавления: 2015-01-18 | Просмотры: 2712 | Нарушение авторских прав

1 | 2 | 3 | 4 | 5 | 6 | 7 |

При использовании материала ссылка на сайт medlec.org обязательна! (0.036 сек.)

Главная | О нас | Полезные cсылки | Контакты