АкушерствоАнатомияАнестезиологияВакцинопрофилактикаВалеологияВетеринарияГигиенаЗаболеванияИммунологияКардиологияНеврологияНефрологияОнкологияОториноларингологияОфтальмологияПаразитологияПедиатрияПервая помощьПсихиатрияПульмонологияРеанимацияРевматологияСтоматологияТерапияТоксикологияТравматологияУрологияФармакологияФармацевтикаФизиотерапияФтизиатрияХирургияЭндокринологияЭпидемиология

Analysis of Variance (clust_1.sta)

Between Within signif.
SS df SS df F p
VAR1 28.14 1 2.85923 30 295.26.000
VAR2 26.70 1 4.30138 30 186.21.000
VAR3 10.11 1 20.89295 30 14.51.001

 

 

Кнопка Graph of Means (График средних значений) позволяет наглядно представить средние значения переменных по каждому кластеру на одном графике (рис. 11.5-5). Из графика видно, что в первый кластер вошли высоко мотивированные и высокоинтеллектуальные менеджеры, у которых, однако, низкий уровень коммуникабельности. Во второй кластер, напротив, вошли менеджеры, обладающие сравнительно высокой коммуникабельностью, но низкими мотивацией и уровнем общего интеллекта.

 

Рис. 11.5-5. Графики средних значений переменных
для двух кластеров

Кнопка Members of each Cluster and Distances (Элементы каждого кластера и их расстояния до центра кластера) позволяет выяснить, что первый кластер включает всего 7 случаев, а второй – 25. В связи с этим возникает вопрос: нельзя ли уточнить классификацию, детализовав состав второго кластера? Попробуем сделать это, проведя разбиение не на два, а на три кластера.

4. Возвращаемся в окно «Cluster Analysis: K-Means Clustering» и изменяем значение поля Number of Clusters (Число кластеров) на «3». Нажав ОК, выполняем кластеризацию. В окне просмотра ее результатов K-means Clustering Results видим следующие результаты анализа рассеяния и средних значений:

Analysis of Variance (clust_1.sta)

Between Within signif.
SS df SS df F p
VAR1
29.79 2 1.21 29 358.06.000
VAR2 26.90 2 4.10 29 95.25.000
VAR3 27.25 2 3.75 29 105.22.000

 

 

Members of Cluster Number 1 (clust_1.sta) and Distances from
Respective Cluster Center
(Элементы кластера №1 и расстояния
от соответствующего центра кластера)

Cluster contains 7 cases (Кластер содержит 7 случаев)

Case № C_1 C_4 C_6 C_10 C_12 C_22 C_26
Distance .291 .318 .363 .300 .323 .320 .359

Members of Cluster Number 2 (clust_1.sta) and Distances from
Respective Cluster Center
(Элементы кластера №2 и расстояния
от соответствующего центра кластера)

Cluster contains 11 cases (Кластер содержит 11 случаев)

Case № C_3 C_7 C_14 C_17 C_23 C_24 C_25
Distance .359 .272 .254 .230 .234 .254 .366
Case № C_27 C_29 C_30 C_32      
Distance .354 .525 .359 .256      

 

 

Members of Cluster Number 3 (clust_1.sta) and Distances from
Respective Cluster Center
(Элементы кластера №3 и расстояния
от соответствующего центра кластера)

Cluster contains 14 cases (Кластер содержит 14 случаев)

Case № C_2 C_5 C_8 C_9 C_11 C_13 C_15
Distance .432 .220 .435 .226 .183 .138 .161
Case № C_16 C_18 C_19 C_20 C_21 C_28 C_31
Distance .141 .275 .255 .550 .226 .141 .138

Рис. 11.5-6. Графики средних значений переменных
для трех кластеров

Из рис. 11.5-6 видно, что средние значения для первого кластера принципиально не изменились, а вот второй и третий кластеры представляют собой менеджеров с невысокой мотивацией и уровнем интеллекта, но с принципиально разными коммуникативными способностями. Количество испытуемых в кластерах получилось следующее: в первом – 7, во втором – 11, в третьем – 14. Таким образом, нам удалось «расслоить» менеджеров с низкой мотивацией на два кластера, в одном из которых (в третьем) стала очевидной стратегия психологического сопровождения деятельности, направленная на повышение профессиональной мотивации.

Этот результат «оправдывает» увеличение числа кластеров в разбиении с двух до трех. Однако возникает вопрос: нельзя ли и далее детализировать полученные группы с целью дальнейшей дифференциации мер психологического сопровождения деятельности и данных для подбора и расстановки кадров? Чтобы ответить на него, выполним кластеризацию еще раз, но уже – с разбиением на 4 кластера.


5. Для четырех кластеров получим следующие результаты:

 

Рис. 11.5-7. Графики средних значений переменных
для четырех кластеров

Analysis of Variance (clust_1.sta)

Between Within signif.
SS df SS df F p
VAR1 29.80 3 1.20 28 231.60.000
VAR2 26.98 3 4.02 28 62.69.000
VAR3 28.72 3 2.28 28 117.54.000

 

Из рис. 11.5-7 видно, что по сравнению с разбиением на три группы первый и второй кластеры принципиально сохранились, а третий «расслоился» на два, отличающиеся друг от друга не принципиально, а лишь конкретным уровнем интеллекта и коммуникабельности. Таким образом, никакой принципиально новой информации разбиение на 4 кластера нам не принесло.

Ответ: данную выборку можно разделить на 2, 3, 4 и т.д. кластеров, достоверно отличающихся друг от друга, но из содержательных соображений целесообразно разделить выборку на три кластера.

Задача 11.5-3. Выявление кластеров эмпирической выборки
с использованием пакета SPSS

Условие: Решить задачи 11.5-1 и 11.5.-2, используя пакет SPSS.

Решение:

1. Запускаем пакет SPSS и вводим данные (табл. 11.5-1) по трем переменным в отдельные столбцы.

2. Выполняем стандартизацию данных. Для этого:

· в пункте меню Statistics (Статистики) выбираем команду Summarize (Подытожить) и, далее, Descriptives (Описательные статистики);

· в открывшемся диалоговом окне задаем Variables (Переменные) – var00001, var00002, var00003;

· устанавливаем флажок в поле Save standardized values as Variables (Сохранить стандартизованные величины как переменные) и нажимаем кнопку ОК.

В окне SPSS viewer (Просмотр результатов) можно просмотреть показатели описательной статистики, однако сейчас они нас не интересуют. Главное, что в окне редактора данных SPSS Data editor появились три новые стандартизованные переменные с именами zvar00000, zvar00001, zvar00002.

Теперь исходные данные можно удалить, а стандартизованные переменные – переименовать, присвоив им названия var1, var2, var3.

Сохраним введенные данные в файле с названием clust_2.sav.

3. Выполним агломеративную кластеризацию. Для этого:

· В пункте меню Statistics (Статистики) последовательно выберем команды Clussify (Классифицировать) и Hierarchical Cluster (Иерархический кластер).

· В открывшемся диалоговом окне Hierarchical Cluster Analysis (Иерархическая кластеризация) задаем Variables (Переменные) – var1, var2, var3, а также устанавливаем флажок опции Cluster (Кластер) в поле Cases (Случаи).

· Нажав на кнопку Plots… (Графики…), в открывшемся диалоговом окне устанавливаем флажок в поле Dendrogram (Дендрограмма). После этого нажимаем на кнопку Continue (Продолжить) и возвращаемся в основное окно метода.

· Нажав на кнопку Method (Метод), в открывшемся диалоговом окне выбираем метод кластеризации и метрику. Как и в пакете Statistica for Windows, в SPSS для проведения агломеративной кластеризации реализован широкий (хотя и отличающийся) набор мер различия (сходства) и методов (их обсуждение см. в разделах 11.2 - 11.4). Выбираем здесь метод Nearest neighbor (Ближайшего соседа), Measure (Мера) – Interval (Интервальная шкала), Euclidean Distance (Евклидово расстояние). В блоке Transform values (Преобразование величин) можно было бы задать стандартизацию, однако мы ее уже выполнили. Таким образом, пакет SPSS имеет богатые возможности по применению преобразований данных, метрик и методов кластеризации. Нажав кнопку Continue (Продолжить), возвращаемся в предыдущее окно.

· Нажимаем кнопку Statistics (статистики). Оставляем заданный по умолчанию флажок в поле Agglomeration schedule (Порядок объединения). Кроме того, в этом окне имеется возможность задать фиксацию принадлежности к кластерам, причем сразу для целого диапазона решений. Для этого используется блок Cluster Membership (Принадлежность к кластерам). Ставим флажок в поле Rang of solutions (Диапазон решений) и задаем этот диапазон, указав значения: From (От) – «2» и Trough (До) – «4».

· Нажав Continue (Продолжить), возвращаемся в основное окно метода и нажимаем OK для выполнения собственно кластеризации.

4. В окне SPSS viewer (Просмотр результатов) видны результаты кластеризации и, в частности, Dendrogram (Дендрограмма) (рис. 11.5-8), имеющая принципиально тот же вид, что и при использовании пакета Statistica for Windows (см. рис.11.5-1 – 11.5-4). Кроме того, здесь приведена таблица Agglomeration Schedule (Порядок объединения), а также показанная ниже таблица Cluster Membership (Принадлежность к кластерам) (для выбранного нами диапазона решений).

 

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *

 

 

Dendrogram using Single Linkage

 

Rescaled Distance Cluster Combine

 

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

 

13 -+-+

31 -+ +-+

16 -+-+ I

28 -+ I +-+

15 ---+ I I

5 ---+-+ +-----+

11 ---+ I I

18 -------+ +-+

9 -+-----+ I I

21 -+ +-----+ +---+

19 -------+ I +---------+

20 ---------------+ I I

2 -------+-----------+ I

8 -------+ I

3 -+-+ +-------------------+

30 -+ +-+ I I

27 ---+ +---------------+ I I

25 -----+ I I I

14 -+-----------+ +-------+ I

24 -+ I I I

17 ---+-+ +-------+ I

23 ---+ I I I

32 -----+-------+ I

7 -----+ I I

29 -------------+ I

4 ---+ I

10 ---+-------------------+ I

1 ---+ +-------------------------+

22 ---+---------------+ I

26 ---+ +---+

6 -----+-------------+

12 -----+

Рис.11.5-8. Дендрограмма агломеративной кластеризации
методом простой связи (пакет SPSS)

Cluster Membership

Case 4 Clusters 3 Clusters 2 Clusters
       
       
       
       

Cluster Membership (продолжение)

Case 4 Clusters 3 Clusters 2 Clusters
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       

5. Выполним дивизивную кластеризацию методом k -средних. Для этого в пункте главного меню Statistics (Статистики) выбираем команду Clussify (Классифицировать) и, далее, K-Means Cluster Analysis (Кластерный анализ методом k -средних).

6. В открывшемся диалоговом окне метода:

· задаем Variables (Переменные) – var1, var2, var3;

· устанавливаем флажок опции Method (Метод) в поле Iterate and classify (Итерировать и классифицировать);

· задаем Number of Clusters (Количество кластеров), равное двум;

· в поле Maximum iterations (Максимальное число итераций) указываем, например, «20» (это число задается в пределах от 1 до 999);

· оставляем предлагаемое по умолчанию значение «0» для поля Convergence criterion (Критерий сходимости): этот критерий принимает значение от 0 до 1, понимаемое как процент от минимального расстояния между начальными центрами кластеров, и определяет, что итерации прекращаются, когда очередная из них не перемещает ни один из центров кластеров на расстояние большее, чем указано в значении критерия.

· все остальные многочисленные возможные параметры метода не изменяем, так как в этом нет необходимости.

7. Выполнив кластеризацию, в окне SPSS viewer (Просмотр результатов) видим итоги разделения, соответственно, на два, три и четыре кластера, включающие таблицы Final Cluster Centers (Окончательные центры кластеров), Cluster Membership (Принадлежность к кластерам), Number of Cases in each Cluster (Количество случаев в каждом кластере) и ANOVA (Результаты проверки качества разбиения с помощью ANOVA), выборочно представленные ниже.

Для двух кластеров:

ANOVA

  Cluster   Error   F Sig.
Mean Square df Mean Square df
Zscore (VAR1) 28,141   9,5E-02   295,262 ,000
Zscore (VAR2) 26,699   ,143   186,210 ,000
Zscore (VAR3) 10,107   ,696   14,513 ,001

Number of Cases in each Cluster

Cluster   7,000
  25,000

Для трех кластеров:

Cluster Membership

Case Number (Номер случая) Cluster (Кластер) Distance (Расстояние до центра кластера)
1   ,503
2   ,749
3   ,622
4   ,551
5   ,381
6   ,629
7   ,471
8   ,753
9   ,392
10   ,520
11   ,316
12   ,560
13   ,239
14   ,441
15   ,278
16   ,244
17   ,399
18   ,476
19   ,441
20   ,952
21   ,392
22   ,555
23   ,405
24   ,441
25   ,634
26   ,621
27   ,613
28   ,244
29   ,909
30   ,622
31   ,239
32   ,443

 

ANOVA

  Cluster   Error   F Sig.
Mean Square df Mean Square df
Zscore (VAR1) 14,897   4,2E-02   358,063 ,000
Zscore (VAR2) 13,452   ,141   95,254 ,000
Zscore (VAR3) 13,623   ,129   105,216 ,000

 

Number of Cases in each Cluster

Cluster   7,000
  14,000
  11,000

 

 

Для четырех кластеров:

ANOVA

  Cluster   Error   F Sig.
Mean Square df Mean Square df
Zscore (VAR1) 9,932   4,3E-02   230,804 ,000
Zscore (VAR2) 9,550   8,4E-02   113,762 ,000
Zscore (VAR3) 9,288   ,112   82,895 ,000

 

Number of Cases in each Cluster
(Количество случаев в каждом кластере)

Cluster   7,000
  14,000
  4,000
  7,000

 

 

Таким образом, результаты кластеризации получились те же, что и при использовании пакета Statistica for Windows.

Ответ: выборку целесообразно разделить на 2, 3 или 4 кластера. Предпочтительный выбор одного из этих вариантов должен определяться либо из содержательных соображений, либо за счет увеличения объема выборки и проведения повторной кластеризации.

Задача 11.5-4. Применение кластерного анализа к данным,
измеренным в разнотипных шкалах

Условие: Коммерческая организация объявила о приеме на работу молодых людей в возрасте от 18 до 25 лет, имея ряд разнородных вакансий. Претенденты, обратившиеся в отдел кадров, заполняли бланки нескольких опросников. Сводные результаты приведены в табл. 11.5-2, в которой используются следующие обозначения

ТП – тип профессии - результат определения предпочтительной
склонности к типу профессии по ДДО (Дифференциально-
диагностическому опроснику) Е.А.Климова:

ЧЗ – «человек – знак»,

ЧП – «человек – природа»,

ЧХО – «человек – художественный образ»,

ЧТ – «человек – техника»,

ЧЧ – «человек – человек»;

УГР – уровень готовности к риску по опроснику готовности
к риску Г.Шуберта, представленный в виде градаций:

СР - склонен к риску,

СУ - средний уровень,

СО - слишком осторожен;

УМД – уровень мотивации достижения по опроснику мотивации
достижения успеха Т.Элерса, представленный в баллах;

ЛК – локус контроля по пункту 8 («В определении трудностей
начала трудовой деятельности Вы рассчитываете…»)
экспресс-анкеты для психолога-профориентатора
В.В.Козлова, А.А.Козловой [32. С.471-472],
представленный в ранговых предпочтениях:

К – на понимание и снисходительность коллег,

С – на себя,

Р – на помощь родителей,

СВ – на советы сверстников,

РД – на заинтересованность во мне работодателя
как в перспективном сотруднике;

ВР – возраст (полных лет);

П – пол (М – мужской, Ж – женский).

Определить: на какие группы можно разделить претендентов по признаку сходства показанных ими результатов.


Таблица 11.5-2


Дата добавления: 2015-01-18 | Просмотры: 1040 | Нарушение авторских прав



1 | 2 | 3 | 4 | 5 | 6 | 7 |



При использовании материала ссылка на сайт medlec.org обязательна! (0.019 сек.)