對數據分析、數據挖掘和大數據的理解

可以說，我們每天都被大量的數據所淹沒，生活和工作時時刻刻都離不開數據。但是，在大數據領域，數據分析、數據挖掘和大數據是不同的。當許多人剛剛入門時，這些概念經常被混淆。問十個人這些單詞的意思，妳可能會得到十五個不同的答案。今天，邊肖將通過壹個比較示例與您談論數據分析、數據挖掘和大數據。

首先，我們來介紹壹下數據和信息的區別。

什麽是數據，什麽是信息？事實上，最本質的區別是數據存在，有跡可循，不需要處理，而信息需要處理。

例如，如果妳想為妳的家買壹個新衣櫃，妳應該首先測量房間各個部分的長度、寬度和高度。只要我們測量這些數據，就可以得到準確的值，因為這些數據是客觀存在的，而這些客觀存在的值就是數據。

但是信息不壹樣。當妳來到家具商場購買衣櫃時，妳會說，我們在房間裏放壹個3米的衣櫃剛剛好，2米的衣櫃有點短，看起來不大氣，4米的衣櫃太大了，不劃算。那麽這種信息就屬於信息。這些時候，大腦已經思考並做出了主觀判斷，而妳獲得這些信息的基礎是客觀存在的數據。

其次，數據分析是通過各種維度對客觀存在或已知的數據進行分析並得出結論。

例如，我們發現該公司的應用程序用戶活躍度下降了:

從區域角度來看，某壹地區活動下降的百分比。

就性別而言，男孩參加活動的比例有所下降。

就年齡而言，20至30歲之間的活動百分比下降。

等等，讓不同的業務類型可以看過去壹段時間的發展趨勢做出結論。

數據挖掘不僅使用了統計學的知識，還使用了機器學習的知識，這裏會涉及到模型的概念。數據挖掘有更深的層次去發現未知的規律和價值。而且，我們更關註數據本身之間的關系，從而得到壹些非顯式的結論，這是我們無法從數據分析中得到的。例如，相關性分析可以知道啤酒和尿布之間的關系，決策樹可以知道妳購買的概率，聚類分析可以知道妳與誰相似等等，重點是從各個維度發現數據之間的內在關系。

因此，兩者的目的是不同的。數據分析是要有明確的分析群體，即在各個維度上對群體進行拆分、劃分和組合以發現問題，而數據挖掘的目標群體是不確定的，這就要求我們更多地從數據的內在關系進行分析，從而將業務、用戶和數據結合起來進行更多的洞察和解讀。

例如，如果壹個人想找壹個女朋友，他可以快速輕松地了解其外部相關因素，如身高、體重、收入、學歷等。，但他無法從這些數據中知道這個女孩是否適合他，她的性格是否能與自己相處融洽...這個時候，我需要從壹些日常行為數據來推斷，壹個是主觀推斷，他是否認為、估計和認為他可以在壹起。

另壹種是客觀+主觀推斷，比如整合社交平臺數據（可以知道朋友圈、微博的日常內容、興趣愛好等。）並使用您自己的行為進行數據挖掘，以查看數據內部匹配的程度。這時他可以判斷他們在壹起的概率是99%，從而建立信心並開始行動。.....

當然，從統計學上講，100%的概率可能不會發生，0%的概率也可能不會發生。這只是小概率事件。不要讓這成為妳脫單的絆腳石。

最後，思維方式不同。壹般來說，數據分析是基於客觀數據進行不斷驗證和假設，而數據挖掘沒有假設，但妳也應該根據模型的輸出給出妳的判斷標準。

當我們經常做分析時，數據分析需要更多的思考，並更多地使用結構化和MECE思維方法，類似於程序中的假設。

分析框架（假設）+客觀問題（數據分析）=結論（主觀判斷）

然而，數據挖掘大多是大型的、全面的、多方位的和精確的。數據越多，模型越精確，變量越多，數據之間的關系越清晰。

所有變量都要從模型的含義中選擇（大而全、多而精），然後根據變量的相關程度、替代關系和重要性進行篩選，最後拋入模型。最後，從模型的參數和解釋的意義來判斷這種方法的合理性。

分析更依賴於業務知識，而數據挖掘更側重於技術的實現，對業務的要求略有降低。數據挖掘往往需要更大的數據量，而數據量越大，對技術的要求就越高。需要很強的編程能力、數學能力和機器學習能力。從結果來看，數據分析更註重結果的呈現，需要結合業務知識進行解讀。數據挖掘的結果是壹個模型，通過模型可以分析整個數據的規律，並壹次性實現對未來的預測，例如判斷用戶的特征以及用戶適合什麽樣的營銷活動。顯然，數據挖掘比數據分析更深入。數據分析是將數據轉化為信息的工具，而數據挖掘是將信息轉化為認知的工具。

以上是今日邊肖整理發送的《談對數據分析、數據挖掘和大數據的理解》相關內容。希望對大家有幫助。想了解更多關於數據分析和人工智能工作分析的信息，並關註邊肖的持續更新。