聚類方法有兩個明顯的局限性:首先,需要分離良好的數據才能使聚類結果清晰。幾乎所有現有算法都從不同的非重疊類數據生成相同的聚類。但是,如果類是擴散互穿的,那麽每個算法的結果會有壹點不同。因此,每個算法定義的邊界都不清楚,每個聚類算法都得到自己的最優結果,每個數據部分都會產生單壹信息。為了說明不同的算法使相同的數據產生不同的結果,必須註意判斷方式的不同。遺傳學家很難從任何算法(尤其是邊界)正確解讀聚類內容的實際結果。最後,將需要經驗可信度來指導通過序列比較的聚類解釋。
第二個限制是由線性相關引起的。以上所有的聚類方法都只是分析壹個簡單的壹對壹的關系。由於只是兩兩線性比較,大大減少了尋找表達式類型之間關系的計算量,卻忽略了生物系統的多因素和非線性特征。
從統計學的角度來看,聚類分析是壹種通過數據建模來簡化數據的方法。傳統的統計聚類分析方法包括系統聚類、分解、加法、動態聚類、有序樣本聚類、重疊聚類和模糊聚類。使用k- means和k-中心點算法的聚類分析工具已被添加到許多著名的統計分析軟件包中,如SPSS和SAS。
從機器學習的角度來看,聚類相當於隱藏模式。聚類是搜索聚類的無監督學習過程。與分類不同,無監督學習不依賴於預先定義的類或帶有類標簽的訓練樣本,而是需要通過聚類學習算法自動確定,而分類學習的樣本或數據對象是有類標簽的。聚類是觀察性學習,而不是示範性學習。
從實際應用的角度來看,聚類分析是數據挖掘的主要任務之壹。就數據挖掘功能而言,聚類可以作為壹個獨立的工具,獲取數據的分布情況,觀察每壹個數據聚類的特征,並針對特定聚類的合作情況進行進壹步的分析。