數據挖掘聚類算法綜述

文|蘇痕

來源|知乎

本文重點介紹了聚類算法的原理、應用過程、應用技巧、評價方法和應用案例。具體算法細節請參考相關資料。聚類的主要目的是客戶聚類。

1.聚類與分類

分類是“監督學習”，事先知道可以劃分哪些類別。

聚類是“無監督學習”，事先並不知道會被分到哪些類中。

比如蘋果，香蕉，獼猴桃，手機，電話。

根據不同的特點，我們的聚類將分為蘋果、香蕉和獼猴桃，而手機和電話作為數碼產品。

分類是指我們在判斷“草莓”的時候，把它歸為“水果”。

所以通俗的解釋就是:分類就是從訓練集學習判斷數據的能力，然後做未知數據的分類判斷；聚類就是把相似的東西歸為壹類，不需要訓練數據來學習。

學術解釋:分類是指分析數據庫中的壹組對象，找出它們的共同屬性。然後根據分類模型，把它們分成不同的類別。分類數據首先根據訓練數據建立分類模型，然後根據這些分類描述對數據庫中的測試數據進行分類或者生成更合適的描述。

聚類意味著數據庫中的數據可以分成壹系列有意義的子集，即類。同壹類別中，個體之間的距離較小，而不同類別中的個體之間的距離較大。聚類分析通常被稱為“無監督學習”。

2.集群的常見應用

我們在實際情況中的應用將包括:

營銷:客戶分組

保險:尋找汽車保險的高索賠客戶群

城市規劃:尋找相同類型的財產

比如妳做買家分析和賣家分析，妳壹定會聽到客戶分組的概念，按標準分為高價值客戶、壹般價值客戶和潛在用戶，針對不同價值的客戶提供不同的營銷方案；

還有保險公司理賠高的客戶，這是保險公司最關心的問題，也是影響保險公司盈利的問題；

還有，做房地產的時候，根據樓盤的地理位置，價格，周邊配套，把熱點樓盤區域和冷點樓盤區域聚類。

3 . k-均值

(1)假設k個簇(2)目標是尋找緊湊簇。

A.隨機初始化集群

B.將數據分配給最近的集群

C.重復計算集群

重復直到收斂

優點:局部優化

缺點:非凸簇有問題。

其中K=？

K & lt=樣本量

取決於數據的分布和期望的分辨率

AIC，DIC

分層聚類避免了這個問題。

4.評估聚類

穩健性

集群怎麽樣？是否過度聚合？

很多時候要看聚合後怎麽辦。

5 .案例案例

案例1:賣家分組雲圖

作者:蘇恒授權轉載

原文鏈接:/dataman/20397891