1.數據采集。它是我們的原材料,因為任何分析都需要數據源;
2.數據挖掘。可以說是最“高大上”的部分,也是整個商業價值所在。數據挖掘的核心是挖掘數據的商業價值,也就是我們所說的商業智能BI。
3.數據可視化。它可以說是數據領域的靈丹妙藥技能,可以讓我們直觀地了解分析數據的結果。?
下面詳細總結了這三部分的內容:
首先,數據收集
收集工具:自動抓取的神器Octopus可以幫助您抓取99%的頁面源。
Python爬蟲:它可以編寫、收集、存儲數據,並設計自動收集。
相關推薦:Python視頻教程
第二,數據挖掘
可以說是壹個知識型項目,相當於整個欄目的“算法”部分。首先要知道他的基本流程、算法和底層數學基礎。
基本流程:業務理解、數據理解、數據準備、模型建立、模型評估、上線發布。
算法:分類算法、聚類算法、相關性分析、關聯分析。
數學基礎:概率論與數據統計、線性代數、圖論、最優化方法。
第三,數據可視化
當數據量很大時很難理解,而可視化可以幫助我們理解這些數據的結構以及分析結果的可視化呈現。
數據可視化有兩種(但不是全部)方法:
1.python第三方庫:Matplotlib、Seaborn等。
2.第三方工具:如果生成了csv文件,並且您希望以所見即所得的方式呈現它,則可以使用第三方工具,如Micrograph、DataV和Data GIF Maker。