當前位置:股票大全官網 - 基金投資 - 數據思維

數據思維

建議

互聯網也已經成熟,物聯網正在建設中。

每個人都生產數據,但只有少數人有能力玩數據。

有了數據,專家率先打開了先知的視角,我們卻連北方都摸不到!

從廣告的精準投放,到美國總統大選的預測和影響力,數據為何如此驚人?

首先,簡單的數據值

1.數據的價值

A.什麽是數據

壹切可以用電子方式記錄的東西都是數據。

這不僅限於數字,還包括語音輸入、數碼相機拍攝的照片、手機錄制的視頻以及其他電子記錄的內容。這個定義看似狹隘,但可以幫助我們更好地理解數據行業的變化,培養數據的時代觀。

b .數據有什麽用

數據對個人的價值必須與其自身業務的核心需求相關。只有明確了數據的商業價值,客戶才容易為數據付費,數據公司才容易產生收入,數據行業才會少壹些混亂。那麽,數據的價值是什麽?

我們可以從收入、支出和風險三個方面來看這個問題:

收入。最典型的例子就是百度付費搜索廣告,通過對用戶搜索數據的深入分析和精準匹配,為廣告主帶來壹大波流量,其創造的收入增長就是數據的價值。

支出。電視廠商根據物聯網技術收集的信息發現,某款電視只有1%的用戶還在使用舊的VGA視頻接口。所以他們決定取消這個接口設置,每年為企業節省上億元的成本。這也是數據分析帶來的價值。

風險。很多商業銀行都有線上申請系統,風險普遍高於線下簽約。數據分析可以幫助他們更準確地區分哪些網申好,哪些不好。這是數據以降低業務風險的方式給公司帶來的間接價值。

2.什麽是數據思維?

為了把本書中最重要的概念“數據思維”解釋清楚,我們不得不引入壹個恰當的統計學術語——回歸分析,這是壹種確定兩個或多個變量之間數量關系的統計分析方法。

古人雲:道控術,術驅道。在道的層面上,回歸分析是壹種思維方式。在它的指導下,我們可以將“業務問題”定義為“數據可分析的問題”。在“技術”層面,回歸分析是壹種可以使用的數據分析工具,將在本解讀的最後壹章介紹。

什麽樣的問題可以算是數據可分析的問題?妳需要找到兩個變量:

因變量y:因他人變化而變化的變量,是業務的核心需求。

自變量X:用於解釋因變量Y的相關變量,壹般來說,自變量X的變化影響因變量Y的變化..x代表數據分析師對業務的洞察力。

個案研究

假設A君向妳借1萬元,妳不妨從A君平時的行為分析入手,綜合考慮妳們的關系是否足夠牢固、是否簽過借條、A君的家庭情況等多種因素,來衡量A君還款的可能性。這裏,還錢的可能性是因變量y;人,關系,借條,家境都是自變量x。

數據思維就是將“業務問題”定義為“數據可分析的問題”。具體方法是在壹堆亂七八糟的業務問題中準確定位業務的核心訴求(因變量Y),找到影響核心訴求的相關因素(自變量X),然後利用各種數據分析工具進行進壹步研究。

在下壹章,我們將重點解決壹個問題。為什麽擁有數據思維如此重要?

二、什麽是大數據?

不了解數據分析,我們很容易神話大數據,認為它有多神奇。其實大數據並沒有那麽神秘,它和很多人接觸過的統計學有著千絲萬縷的聯系。

1.大數據和統計之間的關系

在本期節目中,王漢生教授提到,大數據和統計學之間至少有兩種關系:

A.統計關註的核心是對數據的分析和建模,通過建模對業務不確定性進行表征,這為大數據做出了巨大貢獻。

B.大數據代替不了抽樣。相反,用大數據采樣更重要。

2.大數據有多精準?

“預測不準是正常的,預測準是不正常的。”王教授的話戳破了很多人對預測的美好期待。

妳為什麽如此渴望準確?這是科學的本質。統計學研究包含了大量的相關關系,其中只有極小壹部分是非常罕見的因果關系,但是因果關系的重要性仍然是不可替代的。

相關性:客觀現象之間不確定的相互依賴關系。例句:公雞打鳴,太陽升起。

因果關系:第壹個事件(原因)和第二個事件(結果)之間的關系,其中後壹個事件被認為是前壹個事件的結果。例子:按下電源按鈕,電腦就亮了。

我們經常混淆這壹對概念,甚至有時候連關系都沒有的事件A和事件B經常壹起發生,於是盲目地認為它們有因果關系,鬧了很多笑話。

所以,識別相關性和因果性的概念,不僅是我們理解大數據的金鑰匙,也是培養科學素養的關鍵壹步——對偽科學說不!

第三,每個人都要有數據思維。

數據思維是必須的素養。因為我們生活在信息時代,某種程度上會和數據有關系。沒有數據思維,我們會像不懂炒股經濟知識的人壹樣容易被征收智商稅!

1.提高溝通效率

我們在工作中經常會遇到這樣的情況:數據專家講技術語言,需求部門講業務問題(包括可分析和不可分析的數據),雙方的溝通總是難以順利進行。

要解決這個問題,不僅專業人員需要擺脫自身知識的魔咒,需求部門也需要克服對數據的恐懼。需要在公司內部從上到下培養數據思維。決策者要認識到什麽是與數據相關的,需求部門要有能力把核心需求說清楚。

對此,範老師形象地描述道,擁有數據思維就是“張嘴點川味豬肉”。

這樣可以大大提高溝通效率,讓數據分析的價值最大化!

2.抓住商機

另壹方面,數據思維也可能對創業者有所幫助,尤其是在那些與數據息息相關的創業項目中。擁有數據思維可以幫助創業者抓住商機,但需要經過以下三個步驟:

A.我在哪裏創業,數據能幫到我嗎?

b .如果數據重要,整理出業務中的因變量y和自變量x。

C.在戰略層面,保證Y和X的優質供給和長期積累..

3.生活中的數據思維

如果壹個人不是企業家,涉及的商業問題與數據分析無關,培養數據思維有什麽用?其實生活中大多數小事,數據思維都能啟發妳,關鍵看妳怎麽用。

首先,培養數據思維有助於妳養成壹種目標明確的思維習慣:分析的目的是什麽?核心訴求是什麽?因變量y是什麽?

其次,理解了目的之後,就可以專註於相關的自變量X,就不會陷入“看什麽都是關鍵”的困惑。

最後,妳可以嘗試最簡單的分析,拋開專業建模,至少妳可以分辨出哪些是相關的,哪些是因果的。

第四,各種數據分析方法

看完這個妳對數據分析產生興趣了嗎?本書還介紹了幾種常用的數據分析工具。有興趣可以研究壹下,嘗試用它們來解決數據分析的問題。

1.回歸分析

在技術層面上,回歸分析是各種統計模型。主要有五種類型:線性回歸、0-1回歸、有序回歸、計數回歸和生存回歸。

線性回歸,更嚴格地說,是壹種普通的線性回歸。其主要特點是因變量Y必須是連續數據,對解釋變量X沒有太大要求..在數據世界中,線性回歸可以應用於股票投資、客戶終身價值、醫療保健等領域。

0-1回歸是因變量Y為0-1數據(只有兩個可能值)的回歸分析模型。比如性別只有“男”或“女”。購買決策只有“買”或“不買”。癌癥的診斷只有“癌”或“非癌”。0-1回歸可應用於互聯網信用查詢、個性化推薦、社交好友推薦等。

有序回歸是因變量y為有序數據(與順序相關的數據)的回歸分析模型。例如,現在請評價本期作者的出席情況。根據他們的喜好,1表示非常喜歡,2表示有點喜歡,3表示感覺壹般,4表示有點不喜歡,5表示不太喜歡。這是壹種測序數據。有序回歸常見的應用場景有:電影評分(1~5星);電商產品滿意度得分(1~5星)等。

計數回歸。如果因變量y是計數型數據(非負整數),那麽對應的回歸分析模型就是計數型回歸。計數回歸常用於:客戶關系管理中的RFM模型,即壹定時期內客戶來訪的次數;在二胎政策的研究中,壹對夫婦選擇生育的孩子數量。

生存回歸是生存數據回歸的簡稱,即因變量y是生存數據(描述壹個現象或個體存活了多久)的回歸分析模型,如人的壽命、電子產品的使用壽命、創業公司的持續時間等。

2.數據可視化

最基本的數據可視化方法是統計圖,壹個好的統計圖應該滿足四個標準:準確、有效、簡潔、美觀。常見的統計圖有:直方圖、堆積直方圖、餅圖、直方圖、折線圖、散點圖、箱線圖、莖葉圖等。

3.機器學習

機器學習代表了壹大類優秀的數據模型分析方法,是立誌成為數據科學家的愛書人的必修課。主要涉及樸素貝葉斯、決策樹(包括隨機森林)、神經網絡(包括深度學習)、K-means聚類等方法。

4.非結構化數據

數據是結構化還是非結構化是壹個相對的主觀概念。當然也有壹部分達成了* * *理解,認可的非結構化數據包括中文文本、數據結構、圖像等等。

個案研究

非結構化的文本數據並不意味著我們不能分析它。以《倚天屠龍記》為例。張無忌最愛誰,趙敏,周芷若,李因還是小昭?這本書用數據分析的方法得到答案!

第壹步,提取小說的主要人物及其標題。接下來,確定分析單元,這裏是自然段。那麽張無忌到底愛誰呢?如何定義為數據可分析問題?在本書中,從出現頻率、出現時間、親密程度等不同角度對人物進行了分析。這裏最重要的親密度分析用他們和張無忌在同壹個自然段(同壹時間)出現的次數來簡述:

正所謂時間久了見真情,從這方面來說,張無忌與趙敏近距離接觸的機會最多,也最有可能愛上趙敏。

註:本案詳情可從微信微信官方賬號熊俱樂部(ID: clubear)獲取。

標簽

這是壹本可以提高認知的書。它沒有給妳帶來多少方法論,也不能馬上改變妳的人生。就連聽書的時候也會覺得有點費力。但是,偶爾走出自己的舒適區,嘗試去理解以前不敢碰的理科問題,然後驚喜地發現“哦!原來如此!”這對我們來說難道不是壹種進步嗎?

作者簡介

王漢生

北京大學光華管理學院商業統計與計量經濟學系教授、博士生導師兼系主任,北京大學商業智能研究中心主任,微信微信官方賬號“熊俱樂部”創始人。美國統計學會研究員(2014),國家傑出青年基金獲得者(2016),《JASA》、《JBES》、《中國科學:數學》主編。

京華渡劫

以下內容為數據思維的本質解讀,供書友參考。歡迎分享,未經允許不得用於商業用途。

目錄

首先,簡單的數據值

二、什麽是大數據?

第三,每個人都要有數據思維。

第四,各種數據分析方法

上導軌軸承

壹輛車遇到摸不著北的司機,再大的發動機也到不了目的地。大數據也是如此。如果沒有把商業問題變成數據可分析問題的數據思維,再神話的大數據也無法創造商業價值。

大數據很火,真正知道怎麽做的人少之又少。王漢生教授就是其中之壹。在喧囂的新媒體語境下,王教授以真誠求實的學術氣質,找到了壹條幫助我們在工作和生活中發展數據思維的新路。