對大數據時代的思考(1)
我們不再熱衷於尋找因果關系,而應該尋找事物之間的關聯。這個命題是我看這本書最大的感觸。個人認為也是這本書的核心思想。讓我們從頭開始。首先,書中提出了壹個顛覆我之前認知的命題——?不是原子而是信息是萬物的起源?將世界視為信息和可理解數據的海洋為我們提供了前所未有的視角。這是壹種可以滲透到生活各個領域的世界觀。這壹主張在本書最後壹部分的壹個段落中有所描述。我之所以把它放在最前面,是因為我認為這是談論數字世界的前提,自然也是談論大數據的前提。書中間有壹節講的是數字化和數字化的區別。整理完自己的大腦,數字世界的命題被列為大數據思維的第二步。寫到這裏,我不禁反思自己是否領悟到了書中的精髓(我認為的精髓),這是第壹句話。因為回過頭來看我的整個思維,還是按照舊的因果思維模式來思考。這本書的另壹個吸引人的地方是觀點很多,會從哲學的角度來討論。雖然我肚子裏的墨水不多,但是當我讀到這些描述的時候,我會發現我會更好的理解作者提出的命題。例如,書中有壹段話
我們說人類通過因果關系認識世界,是指我們用來認識和解釋世界上各種現象的兩種基本方法:壹種是通過快速虛幻的因果關系,另壹種是通過緩慢有序的因果關系。大數據將改變這兩種基本方法在我們理解世界中的作用。
在附上壹些例子的時候,用作者提供的?精華?妳壹看,就很容易明白,確實是這樣。好吧,那麽大數據改變了我們什麽?作者給出三點。
大數據的本質在於我們分析信息時的三個變化。這些變化談論的是改變我們理解和形成社會的方式。
第壹個變化是,在大數據時代,我們可以分析更多的數據,有時甚至可以處理與某壹特定現象相關的所有數據,而不是依靠隨機抽樣(樣本=總體)。
第二個變化是研究數據太多,我們不再熱衷於追求準確性。
第三個變化是由前兩個變化引起的,即我們不再熱衷於尋找因果關系,而應該尋找事物之間的相關性。大數據告訴我們?這是什麽?而不是。為什麽?。大數據時代,我們不需要知道現象背後的原因,我們只需要讓數據自己說話。
眾所周知,人腦有這樣壹個功能,它會將新的輸入刺激或信息與?過去的經驗還是積累的知識?對比,然後調整,接受。如果眼前的新現實不能與妳大腦中儲存的固有信息相協調,妳就會不自覺地拒絕接受新現實(就像沒看見壹樣);或者通過自己的壹知半解任意猜測,使自己意識到的情況偏離現實(產生錯覺)。這是人類的壹種本能,旨在讓自己保持冷靜。
所以作者稱之為革命。
說了這麽多,大數據給我們帶來了什麽?在這裏我只想說壹下我感受最深的,其他感興趣的可以自己了解。當然,書中有很多,最多的就是XXX公司或個人利用大數據創造了多少財富。拋開這些表面的東西,最讓我動心或者害怕的是預測。這是大數據帶來的最核心的東西。不需要重復動心的理由。電腦會告訴妳什麽時候買雙色球中頭獎。想想妳是不是有點激動。當然,這只是我打了壹個誇張的比喻。關於恐懼,書裏有壹段話我很喜歡。
公平正義的基礎是,人們只有在做了某件事之後才需要對這件事負責。畢竟,想做而不做並不是犯罪。社會與個人責任相關的基本信念是,人們應該為自己選擇的行為負責。如果大數據分析完全準確,那麽我們的未來就會被準確預測,那麽在未來,我們不僅會失去選擇的權利,還會根據預測行動。如果準確預測成為現實,我們將失去自由意誌和自由選擇的權利。既然我們別無選擇,就不需要承擔責任。這不是很諷刺嗎?
拉到這裏,順便說壹下,書中對自由意誌的另壹種描述。
在哲學領域,關於因果關系是否存在的爭論已經持續了幾個世紀。畢竟,如果壹切都有因果,那麽我們就沒有決定任何事情的自由。如果我們做的每壹個決定或想法都是其他事情的結果。而這個結果是其他原因造成的。在這個循環中,就不存在人類的自由意誌了。?所有的人生軌跡都只受因果關系控制。因此,哲學家們對因果關系在世界中的作用爭論不休,有時他們認為這是自由意誌的對立面。
書中舉了壹個例子,舉了壹部電影《少數派報告》。看到這裏的時候,哦,其實我看過這部電影。想想還是有點激動。有興趣的可以看看。大概是警察通過預測提前抓捕犯人,但不是通過大數據,而是通過壹種超人的方式。當妳做的每壹件事都可以預測的時候,就相當於妳完全暴露在陽光下。如果是妳,妳會害怕嗎?
最後附上兩個後記,壹個是書中的壹段話,壹個是自己編的。
大數據並不是壹個充滿算法和機器的冰冷世界,人類的作用仍然無法被完全取代。大數據給我們提供的不是最終答案,而是參考答案。幫助是暫時的,更好的方法和答案還在不久的將來。
大數據最終會影響到我們,它會像其他技術壹樣是壹把雙刃劍。用得好,動心,虐,怕。就像核技術,用了就造福地球,濫用了,給妳壹個鉆石地球,還是會爆炸。我相信,大數據未來的發展,會像作者說的那樣,是壹場生活、工作、思維的革命。
大數據時代的思考(2)
去年?雲計算?今年是油炸的嗎?大數據?又壹次突然襲擊。好像壹夜之間,所有廠商都改旗易幟推高了?大數據?它來了。於是,各個企業的CIO也把目光投向了熱火?大數據?它來了。有壹幅來自《程序員》微博的漫畫很生動。我覺得這張圖確實反映了中小企業雲計算和大數據的現狀。
不過話說回來,《大數據時代》是本好書。
當然,很多IT名人也極力推薦,並寫了很多評論來表達對這本書的喜愛。在看這本書之前,我基本上對所謂大數據的概念很迷茫。雖然我關註過現在也很火的BI,但是感覺差不多。可能是更多的數據,更細致的數據分析和數據挖掘。看完這本書,感覺之前的想法只能算小半——海量數據,而另壹個:關註數據相關性,而不是數據準確性,可能是大數據和現在BI最大的區別,不僅僅是方法,更多的是思維方式。但坦白說,數據的相關性更好還是數據的準確性更好,真的需要時間來檢驗。至少從目前的數據分析方法來看,更傾向於數據的準確性。看完這本書,我心中有些疑問:
1.什麽是大數據?
查了壹下百度百科,是這樣定義的:bigdata,或稱巨量數據,是指涉及的數據量大到無法通過目前主流的軟件工具捕捉、管理、處理、整理成更有積極意義的目的來幫助企業在合理的時間內進行商業決策的信息。大數據的4V特征:量、速度、多樣性、保真度——這似乎是IBM的定義。
個人觀點:海量數據和海量存儲是大數據的基本原型。
2.大數據適合什麽樣的企業?
誠然,大數據的前提是海量的數據。有了海量的數據資源,才能找出數據的關聯性,讓它過去。
專業的待遇,讓它為企業產生價值。對於電信運營來說,在互聯網上使用如此海量用戶數據的大型企業,在應用大數據的道路上也有得天獨厚的條件,但是中小企業呢?銷售訂單數據?如果不是百年老店,估計數據少得可憐。5.只能使用消費者數據。好像大部分廠商,比如對消費者的購買行為分析的最多。同樣,在公共部門,大數據的作用也可能起到很好的作用。相反,我感覺大部分中小企業應用大數據似乎有點大問題。書上說:大數據是企業的競爭力。誠然,數據是企業最核心的無形資源(如果用得好的話),但是否所有的數據,或者換句話說:所有的企業都有大數據的競爭力,真的合適嗎?會不會顯得中小企業小題大做?
3.大數據的影響
當壹波又壹波的IT技術熱潮來到我們的鋪面時,妳甚至還沒有做好準備,就要開始迎接它給妳帶來的沖擊。借助物聯網和雲計算,大數據開始出現。但是它給我們帶來了什麽?
1)預測未來從Google成功預測未來可能發生的流感的案例開始,說明大數據的應用可以作為我們生活的指南。本質很簡單,技術改變世界。
2)轉化商業大數據帶來的商業機會,也將催生壹系列與大數據相關的商業機會和商業模式,數據的潛在價值將繼續發揮作用。很容易想象,未來會產生壹個數據產業鏈,有專門的數據采集、數據分析、數據生成。當然,IT公司的影響最大。
3)《易思維之書》說:因為有海量的數據作為基礎,未來我們可能會更註重數據的相關性而不是精細度。我對這篇文章還是有保留的。
大數據時代的思考(三)
如今,提到新媒體和互聯網,就不得不提大數據。好像不說這個就出局了。更何況有壹大堆人雲亦雲,很多空談家連這方面的經典著作都沒認真看過?舍恩·伯傑的大數據時代。維克多?邁耶?勛伯格是誰?現任牛津大學網絡學院互聯網研究所治理與監管教授,曾任哈佛大學肯尼迪學院信息監管研究項目負責人。他的咨詢客戶包括微軟、惠普和IBM,他是歐盟官方互聯網政策背後的真正制定者和參與者。他還擔任過許多國家高級政府的智囊團。這被譽為:大數據時代的先知?牛津教授牛逼!所以,大師說的是金科玉律?不壹定,讀大師們的作品壹定要做壹些功課。如果妳能做足功課,有相應的理論基礎,可以和他們進行思想上的對話。
勛伯格分三個部分論述大數據,即思維變革、業務變革和管理變革。在第壹部分?大數據時代的思維變革?在這篇論文中,勛伯格明確表明了他的三個觀點:壹、多:不是隨機樣本,而是所有數據;二、更雜:不是準確,而是雜糅;第三,更好:不是因果關系,而是相關性。我不同意第壹點。壹方面,從技術和設備上來說,處理所有的數據是非常困難的。另壹方面,是不是每個人都有必要?判斷簡單事實的數據分析有必要收集所有數據嗎?我和香港城市大學的祝建華教授討論過這個問題。朱教授是傳播學研究方法和數據分析的專家。他認為可以找壹種數理統計的方法進行分析,不壹定需要所有的數據。聯系到勛伯格第二個觀點中提到的相關性,我理解他說的總數據不是指數量而是指範圍,即大數據的隨機樣本不僅限於目標數據,還包括目標之外的所有數據。我認為大數據分析不能排除隨機抽樣,但抽樣的方法和範圍要擴大。
我同意勛伯格的第二個觀點。我覺得是對他第壹個觀點很好的補充,也是對精準傳播和精準營銷的反思。?大數據的簡單算法比小數據的復雜算法更有效。?更多宏觀視野和東方哲學思維。我不能完全同意勛伯格的第三點。?不是因果關系,而是相關性。?不需要知道?為什麽?只是需要知道?這是什麽?。溝通是數據,數據是關系。在小數據時代,人們只關心因果關系,卻對相關性了解不夠。大數據時代,相關性的作用舉足輕重,怎麽強調都不為過,但也不應該完全排除。大數據從何而來?它是用來做什麽的?如果完全忽略因果關系,不知道大數據的前因後果,也會消解大數據的人文價值。現在很多學者為了闡述和傳播自己的觀點,往往語出驚人,全盤否定舊觀念。
世界上任何事物的復雜性和多樣性都不是簡單的非此即彼。勛伯格也是這種二元對立的幼稚思維嗎?其實,讀者在閱讀時壹定要看清自己是在什麽語境下說的,不要因為閱讀的淺薄而陷入斷章取義的誤區。例如,勛伯格提出?不是因果關系,而是相關性。?他在作出這壹論斷時,還在書中說:?大多數情況下,壹旦我們完成了大數據的關聯分析,就不再滿足於僅僅知道?這是什麽?屆時,我們將繼續深入研究其中的因果關系,找出背後的原因。為什麽?。?[i]可見,他所說的所有數據和相關關系都是在特定的語境下,是數據挖掘中的選項。
大數據研究的驅動力之壹是商業化。在第二部分,勛伯格討論了大數據時代的商業變革。勛伯格認為數字化意味著壹切皆有可能?量化?大數據的量化分析是有力的回答?這是什麽?這個問題,卻還是無法完全回答?為什麽?。所以我覺得不能排除定性分析和定性研究。毫無疑問,數據創新可以創造價值。在討論大數據的角色定位時,勛伯格仍然把它放在數據應用的商業體系中,而沒有放在整個社會體系中,但他在《大數據時代的管理變革》第二部分討論了這個問題。在風險社會,信息安全問題日益突出,數據獨裁和隱私保護成為壹對矛盾。如何擺脫大數據的困境?勛伯格在最後壹節?控制?我試著回答了壹下,基本都是老生常談。我想,也許凱文?凱利的失控可以幫我們回答這個問題?至少可以提供更多的思考維度。正如勛伯格在結論中所說:?大數據並不是壹個充滿算法和機器的冰冷世界,人類的作用仍然無法被完全取代。大數據給我們提供的不是最終答案,而是參考答案。幫助是暫時的,更好的方法和答案還在不久的將來。?謝謝勛伯格。讓大數據討論從自然科學回歸到人文社會科學。可以推斷,“大數據時代”不是最終答案,也不是標準答案,而是參考答案。
另外,在看這本書之前,妳必須要有壹些數據科學的基礎知識和概念,比如什麽是數據?什麽是大數據?數據分析和數據挖掘有什麽區別,數字化和數據化有什麽區別?讀書前做點功課,讀起來會輕松壹些。