導讀python數據挖掘工具包就是scikit-learn,scikit-learn是壹個基於NumPy, SciPy,
Matplotlib的開源機器學習工具包,主要涵蓋分類,回歸和聚類算法,例如SVM,
邏輯回歸,樸素貝葉斯,隨機森林,k-means等算法,代碼和文檔都非常不錯,在許多Python項目中都有應用。
優點:
1、文檔齊全:官方文檔齊全,更新及時。
2、接口易用:針對所有算法提供了壹致的接口調用規則,不管是KNN、K-Means還是PCA.
3、算法全面:涵蓋主流機器學習任務的算法,包括回歸算法、分類算法、聚類分析、數據降維處理等。
缺點:
缺點是scikit-learn不支持分布式計算,不適合用來處理超大型數據。
Pandas是壹個強大的時間序列數據處理工具包,Pandas是基於Numpy構建的,比Numpy的使用更簡單。最初開發的目的是為了分析財經數據,現在已經廣泛應用在Python數據分析領域中。Pandas,最基礎的數據結構是Series,用它來表達壹行數據,可以理解為壹維的數組。另壹個關鍵的數據結構為DataFrame,它表示的是二維數組
Pandas是基於NumPy和Matplotlib開發的,主要用於數據分析和數據可視化,它的數據結構DataFrame和R語言裏的data.frame很像,特別是對於時間序列數據有自己的壹套分析機制。有壹本書《Python
for Data Analysis》,作者是Pandas的主力開發,依次介紹了iPython, NumPy,
Pandas裏的相關功能,數據可視化,數據清洗和加工,時間數據處理等,案例包括金融股票數據挖掘等,相當不錯。
Mlpy是基於NumPy/SciPy的Python機器學習模塊,它是Cython的擴展應用。
關於python數據挖掘工具包的優缺點,就給大家介紹到這裏了,scikit-learn提供了壹致的調用接口。它基於Numpy和scipy等Python數值計算庫,提供了高效的算法實現,所以想要學習python,以上的內容得學會。