聚類分析的研究方法是什麽？

類將目標數據放入幾個相對同源的組或“簇”中。對表達數據進行分析，(1)通過壹系列測試，將壹組待測基因的變異標準化，然後成對比較線性協方差。(2)通過使用最密切相關的光譜對樣本進行聚類，例如，使用簡單的分級聚類方法。這種聚類也可以擴展到每個實驗樣本，使用壹組基因的總線性相關性進行聚類。(3)多維標度分析(MDS)是壹種在二維歐幾裏得“距離”中顯示實驗樣本的近似相關程度的方法。(4)K-means聚類，這是壹種通過重復重新分配類成員來最小化“類”內部離散度的方法。

聚類方法有兩個明顯的局限性:首先，需要分離良好的數據才能使聚類結果清晰。幾乎所有現有算法都從不同的非重疊類數據生成相同的聚類。但是，如果類是擴散互穿的，那麽每個算法的結果會有壹點不同。因此，每個算法定義的邊界都不清楚，每個聚類算法都得到自己的最優結果，每個數據部分都會產生單壹信息。為了說明不同的算法使相同的數據產生不同的結果，必須註意判斷方式的不同。遺傳學家很難從任何算法(尤其是邊界)正確解讀聚類內容的實際結果。最後，將需要經驗可信度來指導通過序列比較的聚類解釋。

第二個限制是由線性相關引起的。以上所有的聚類方法都只是分析壹個簡單的壹對壹的關系。由於只是兩兩線性比較，大大減少了尋找表達式類型之間關系的計算量，卻忽略了生物系統的多因素和非線性特征。

從統計學的角度來看，聚類分析是壹種通過數據建模來簡化數據的方法。傳統的統計聚類分析方法包括系統聚類、分解、加法、動態聚類、有序樣本聚類、重疊聚類和模糊聚類。使用k- means和k-中心點算法的聚類分析工具已被添加到許多著名的統計分析軟件包中，如SPSS和SAS。

從機器學習的角度來看，聚類相當於隱藏模式。聚類是搜索聚類的無監督學習過程。與分類不同，無監督學習不依賴於預先定義的類或帶有類標簽的訓練樣本，而是需要通過聚類學習算法自動確定，而分類學習的樣本或數據對象是有類標簽的。聚類是觀察性學習，而不是示範性學習。

從實際應用的角度來看，聚類分析是數據挖掘的主要任務之壹。就數據挖掘功能而言，聚類可以作為壹個獨立的工具，獲取數據的分布情況，觀察每壹個數據聚類的特征，並針對特定聚類的合作情況進行進壹步的分析。