集群分析 - 明道大学 -----

上传人:wt****50 文档编号:49821397 上传时间:2018-08-03 格式:PPT 页数:82 大小:1.22MB
返回 下载 相关 举报
集群分析 - 明道大学  -----_第1页
第1页 / 共82页
集群分析 - 明道大学  -----_第2页
第2页 / 共82页
集群分析 - 明道大学  -----_第3页
第3页 / 共82页
集群分析 - 明道大学  -----_第4页
第4页 / 共82页
集群分析 - 明道大学  -----_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《集群分析 - 明道大学 -----》由会员分享,可在线阅读,更多相关《集群分析 - 明道大学 -----(82页珍藏版)》请在金锄头文库上搜索。

1、智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X第十章 集群分析 第一節 集群分析原理第二節 SPSS的分層集群分析法第三節 SPSS的K-Means集群分析法第四節 SPSS的TwoStep集群分析法第五節 集群分析範例智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X學習目標 q 認識集群分析的基本概念與目的。q 瞭解集群分析的演算步驟。q 探討相似性的衡量方法與公式。q 理解層次集群法中的群與群間距離計算的各種方法。q 認識集群結果的解釋、命名、驗證和後續分析。q 認識SPSS的層次集群法程序、介面操作與結果分析。q 認識

2、SPSS的K-Means集群法程序、介面操作與結果分析。q 認識SPSS的TwoStep集群法程序、介面操作與結果分析。q 認識SPSS的各種因素分析應用實例。q 瞭解集群程序的集群結果如何進行各種後續分析。智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X第一節 集群分析原理一、集群分析的基本概念二、集群分析的主要步驟三、相似衡量四、集群方法五、集群結果的解釋和驗證六、SPSS的Cluster分析程序智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X集群分析原理q 集群分析(Cluster Analysis)是將資料檔中的觀測值

3、或變數 加以歸類在各個集群內,也就是把沒有分群的個體按相似 程度歸於同一群。集群分析可以作資料簡化。q 集群分析分群的方法有兩大形式,分層法(Hierarchical) 與非分層法(Non-hierarchical),結合兩種方法的集群分 析則稱為兩階段法(Two Step)。q 分層法以個體間某項量測的距離或相似性將個體連結,但 是事前並不知道分群的個數,通常可表示成樹型圖。q 非分層法則是於事前依據其他研究或主觀認定,決定要將 群體分成幾群,其中以K平均值法(K-Means)為代表。智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X圖10-1 SPSS的Cl

4、uster程序 智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X一、集群分析的基本概念q 集群分析使在同一集群內的事物具有高度的同質性( homogeneity),而不同集群的事物具有高度的異質性 (heterogeneity)。q 亦即將樣本分成幾群互相沒有交集的群組。q 因素分析是將同質性高的變數(variables)集成一群 ;而集群分析則是將變數相似性高的觀察值(cases) 集成一群。q 集群分析的大部分應用都屬於探索性研究,最終結果 是產生研究對象的分群。智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X二、集群分析

5、的主要步驟(1/2)q 集群分析至少都應該包括以下四個步驟: 第一步:根據研究的目的選擇合適的分群變數 第二步:計算相似性衡量 第三步:選定集群方法進行集群 第四步:對結果進行解釋和驗證q 分群變數應該具有以下特點: 1. 和集群分析的目標密切相關 2. 反映了要分群對象的特徵 3. 在不同研究對象上的數值具有明顯差異 4. 變數之間不應該有高度相關智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X集群分析的主要步驟(2/2)q選擇分群變數時要注意克服加入盡可能多的變 數這種錯誤觀念。 q此外所選擇的變數之間不應該高度相關。 q選定了分群變數,下一步就是計算研究

6、對象間的 相似性。相似性反映了研究對象間的親疏程度。 q計算出相似性矩陣之後,下一步就是要對研究對 象進行分群。這時主要涉及到兩個問題:一是選 定集群方法;二是確定形成的分群數。 q得到集群結果後,最後一步還應對結果進行驗證 和解釋。智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X5. 柴比雪夫(Chebychev)距離6. 區塊(block)距離: 7. 明可夫斯基(Minkowski)距離 8. 自訂式(Customized)距離 1. 歐基里得直線距離(Euclidean distance)2. 歐基里得直線距離平方(Squared Euclidean

7、distance)3. 餘弦(Cosine):4. Pearson相關: 三、相似衡量(Measure)q 很多種相似的衡量方法,都從不同的角度衡量了研究對象的相似 性,其主要分為以下二類:1.距離衡量;2.關聯衡量。 q 距離衡量計量資料:智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X關聯衡量計質資料q 1. 卡方值測距(Chi-square measure):q 2. Phi平方值測距(Phi-square measure):q 3. 二進位資料(Binary):有沒有有ab沒有cd Case1Case2智勝文化事業有限公司製作多變量分析 林震岩 著IS

8、BN 957-729-569-X四、集群方法:層次集群法q 層次集群法又可分為兩種層次集群法:凝聚法(Agglomerative Method,或稱聚集法)和分離法(Divisive Method,或稱分解法)。q 凝聚法首先是把每個觀察值各自看成一群,先把距離最近 的兩群合併。直到合併成一大群為止。q 分解法和聚集法的過程相反,每一步增加一群,直到每個 觀察值都自成一群為止。q 目前SPSS採用凝聚法,故層次聚集法是集群分析中應用最 廣泛的集群方法。q 層次集群法的集群過程可以用一個樹狀圖(Dendogram)表 示出來。 智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-72

9、9-569-X圖10-2 群與群距離計算方法 比較的示意圖 智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X圖10-3 以身高與體重進行 最短距離法集群所得到的樹狀圖 最短距離法(Nearest Neighbor)或稱單一連結法(Single Linkage): 最短距離法主要的缺點為鏈接聚合缺陷,容易形成一個比較大的組。 大部分的觀察值皆被聚集在同一組,故最短距離法在研究上很少被使用。 智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X圖10-4 以身高與體重進行 最遠距離法集群所得到的樹狀圖 最遠距離法(Furthest N

10、eighbor)或稱完全連結 法(Complete Linkage):和最短距離法相反。智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X平均連結法(Average Linkage)q 把兩群間的距離定義為兩群中所有觀察值之間距離的 平均值,不再依賴於特殊點之間的距離。q 平均連結法為集群效果較好、應用較廣泛的一種集群 方法。智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X重心法(Centroid Clustering)與 中位數法(Median Clustering) 每一群的重心是該群中所有觀察值在各個變數上的均 值所代表的

11、點。 每合併一次群,都需要重新計算新群的重心。 與重心法相似的方法為中位數法。 中位數法把兩群之間的距離定義為兩群中位數之間的 距離。智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X圖10-5 以身高與體重進行 重心法集群所得到的樹狀圖 智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X最小變異數和法(華得法)q 其基本思想是同一群內觀察值的變異數和應該較小, 不同群之間觀察值的變異數和應該較大。q 要求觀察值之間的距離必須採用歐氏距離。q 最小變異數和法和平均連結法一樣,是分群效果較好 ,在社會科學領域應用較廣泛的集群方法。智

12、勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X表10-1 各方法之塊頭集群結果智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X非層次集群法q 層次集群法在集群過程中需要儲存距離矩陣,並且在每一 步的併群過程中都需要作很多計算。q 非層次集群法克服了層次集群法的這兩個缺點,適用於大 樣本的集群分析,分為以下四步驟:l 指定要形成的集群數。l 調整分群:計算每個觀察值到各群重心的距離,把每個觀察 值歸入距重心最近的那一群。l 重新計算每一群的重心。l 重複步驟(2)(3),直到沒有觀察值可以再調整為止。q 不同的初始分群用於同一資

13、料往往也會得出不同的結果。q 通常將每一群的重心作為初始集群中心。智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X分群數的確定q 根據樹狀結構圖來分群的準則如下: 準則1:任何群都必須在鄰近各群中是突出的,即各群的重 心間距離必須很大。 準則2:各群所包含的觀察值數都不要過多,以便各群內的 相似性提高。 準則3:分群的數目應該符合使用的目的。 準則4:若採用數種不同的集群方法,則在各自的集群圖上 應發現相同的群。q 集群分析時最好不要有某個群的觀察值很多,或某個群的觀察 值特別少的現象。q 集群數最好在二至四群間,因為當超過五群時,就很難對每個 集群加以解釋其

14、特徵與命名了。智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X集群方法的選擇q 以下四個因素會大大影響集群方法的使用效果:l群的結構(主要指群的形狀、規模和個數)。l偏離值(Outliers,或稱異常點)的存在。l群與群之間重疊的程度。l相似衡量的選擇。q 為了減輕偏離值的影響,研究者可能要反覆進行幾次 的集群分析。q 與層次集群法相比,非層次集群法受偏離值、相似衡 量和不合適的分群變數的影響較小;其缺點是集群結 果對初始分群非常敏感。智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X兩階段集群法q 現在的趨勢是把兩種方法結合起

15、來使用,取長補短。 q 首先使用層次集群法確定分群數,檢查是否有偏離值 ,去除偏離值後,對剩下的觀察值重新進行分群,用 層次集群法得到的各個類的重心,作為非層次集群法 的初始分群中心。 q 除了層次集群法與分層次集群法外,兩階段法也相當 常見,結合分層法與非分層法二種方式。 第一階段:以華得法或其他分層法作分群,決定集群個 數k。 第二階段:再以K-平均值法進行集群,移動各群組內的 個體,但要保持全部集群仍有個k個,在SPSS也發展出結 合層次集群法與分層次集群法優點的兩階段集群法。智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X五、集群結果的解釋和驗證q 對

16、集群結果進行解釋是希望對各個集群的特徵(有顯著集 群效果的分群變數)進行準確的描述,給每群取一個合適 的名稱。q 計算各個群在各分群變數上的平均值,對平均值進行比較 分析(若是二群進行T檢定分析,若是三群以上進行One- Way ANOVA分析)。q 當集群命名後,後續的分析中將以新的集群名稱來代表原 始分群變數,故集群命名與因素命名同等重要;也與因素 分析一樣,集群的命名相當不易,特別是當有太多分群變 數時,分群變數也不宜太多。q 若命名不恰當所造成的問題,正如同因素分析命名一樣, 將造成讀者閱讀的不易與誤解。 智勝文化事業有限公司製作多變量分析 林震岩 著ISBN 957-729-569-X表10-2 塊頭集群結果與 分群變數之F檢定分析表 q結果顯示這三群間的身高與體重皆達顯著差異,且

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号