從2008年開始工作到現在已經11年了。壹路跟數據打交道,開發了大數據底層框架的內核(Hadoop,Pig,Tez,Spark,Livy),也開發了大數據的上層應用(寫MapReduce Job做ETL,用Hive做Ad hocquery,用Tableau做數據可視化。今天,我想借此機會和大家談談我所理解的大數據的現狀和未來。
首先,我們來說說什麽是大數據。大數據這個概念已經有很多年了(10多年),但是壹直沒有壹個準確的定義(也許並不需要)。數據工程師對大數據的理解會更多的從技術和系統的角度出發,而數據分析師對大數據的理解會從產品的角度出發,所以數據工程師和數據分析師對大數據的理解肯定是不壹樣的。我對大數據的理解是這樣的。大數據不是單壹的技術或產品。它是壹門與所有數據相關的綜合學科。看大數據的時候,我會從兩個維度來看,壹個是數據流的維度(下圖橫軸),壹個是技術棧的維度(下圖縱軸)。
其實我壹直不喜歡閉口不談“大數據”。我更喜歡說“數據”。因為大數據的本質在於“數據”,而不是“大”。因為媒體壹直在重點宣傳大數據的“大”,有時候我們往往會突然發現,大數據的本質是“數據”,而不是“大”。“大”只是妳看到的,本質還是數據本身。
在我們明確了大數據的含義之後,再來說說大數據目前在哪裏。從歷史發展來看,每壹項新技術都會經歷以下技術成熟度曲線。
壹項新技術出來,人們會非常樂觀。他們往往認為這項技術會給人類帶來巨大的變化,對其期望過高。所以這項技術壹開始會以非常快的速度受到大家的追捧,之後會達到壹個高峰。然後人們會開始意識到這個新技術並沒有預想的那麽革命性,然後就會過於悲觀,然後就會經歷泡沫階段。經過壹定時間的沈寂,人們開始回歸理性,正視這項技術的價值,然後開始正確應用這項技術。從此,這項技術開始穩步前進。(題外話,我看這張圖的時候也想到了壹個男人對婚姻看法的圖,大家可以補壹下。).
1.從大數據的歷史來看,大數據經歷了兩個重要階段。
兩個重要階段指的是高預期的頂峰和泡沫的底部。現在處於穩步發展階段。我們可以從googletrend上的大數據曲線來印證。大數據大約在2009年開始走向人們的視野,在2015左右達到頂峰,然後慢慢走向下行通道(當然這條曲線不會完全擬合上面的技術成熟度曲線,比如下行通道的技術曲線可能會增加討論這項技術的搜索量)。
接下來我想說說我對大數據未來趨勢的判斷。
2.數據規模將繼續擴大,大數據將繼續蓬勃發展。
如前所述,大數據已經過了高預期的頂峰和泡沫的底部,現在正在穩步發展。做出這個判斷主要有兩個原因:
上遊數據的規模將繼續增長,特別是由於IOT技術的發展和成熟以及未來5G技術的普及。在可預見的未來,數據規模將持續快速增長,這是大數據持續穩定發展的基本動力。下遊數據行業還有很大的發展空間,還有很多數據價值我們沒有挖掘出來。雖然人工智能和區塊鏈搶了大數據的位置,也許未來大數據不會是主角,但是大數據絕對不是跑龍套的,大數據依然會發揮重要的基礎作用。可以說,只要有數據,大數據就永遠不會過時。我想在大多數人的有生之年,我們都會見證大數據的不斷向上發展。
3.對實時數據的需求會更加突出。
大數據之前遇到的最大挑戰就是數據規模大(所以大家都會稱之為“大數據”)。經過行業多年的努力和實踐,規模大的問題已經基本解決。未來幾年,更大的挑戰是速度,也就是實時。大數據的實時不是指單純傳輸數據或處理數據的實時,而是指從端到端的實時。任何壹步慢了,都會影響整個大數據系統的實時性。所以大數據的實時性包括以下幾個方面:
數據的快速獲取和傳輸,數據的快速計算和處理,數據的實時可視化,在線機器學習,機器學習模型的實時更新。目前,以Kafka和Flink為代表的流處理計算引擎已經為實時計算提供了堅實的技術支持,相信未來在實時可視化數據和在線機器學習方面會湧現出更多優秀的產品。當大數據的實時性增強後,在數據消費端會產生更多有價值的數據,從而形成更高效的數據閉環,促進整個數據流的良性發展。
4.大數據基礎架構向雲的遷移勢不可擋。
目前IT基礎設施向雲遷移已經不是大家還需要爭論的問題,這是大勢所趨。當然,我這裏說的雲不僅僅指公有雲,還包括私有雲、混合雲。由於每個企業的業務屬性不同,對數據安全的要求也不同,不可能將所有的大數據設施都部署在公有雲上,而遷移到雲上是未來註定的選擇。目前,各大雲廠商都提供了各種大數據產品來滿足各種用戶需求,包括基於平臺的(PAAS) EMR、面向服務的(SAAS)數據可視化產品等等。大數據基礎設施的雲化也對大數據技術和產品產生了相應的影響。大數據領域的框架和產品會更加雲原生。
計算與存儲分離。我們知道每個公有雲都有自己對應的分布式存儲,比如AWS的S3。S3在某些場合可以替代眾所周知的HDFS,而且成本更低。S3的物理存儲不在EC2上。對於EC2,S3是遠程存儲。所以如果妳想在AWS上做大數據開發和應用,妳的數據在S3上,那麽妳很自然的使用了計算和存儲的分離。擁抱容器,與Kubernate整合是大勢所趨。我們知道Kubernate基本上是雲環境下容器資源調度的標準。更有彈性。與雲上的其他產品和服務更緊密地集成。5.大數據產品全鏈路
全鏈路是指提供端到端的全鏈路解決方案,而不是簡單的堆砌壹些大數據產品組件。以Hadoop為代表的大數據產品被詬病的主要問題是用戶門檻太高,二次開發成本太高。全鏈接就是為了解決這個問題。用戶需要的不是Hadoop、Spark、Flink等技術,而是基於這些技術能夠解決商業問題的產品。Cloudera從Edge到AI的方案是我比較認同的壹個方案。大數據的價值不是數據本身,而是隱藏在數據背後對業務產生影響的信息和知識。下面是取自維基百科經典數據金字塔的圖片。
大數據技術就是對最原始的數據進行不斷的處理和提煉。金字塔每往上壹層,對應的數據量就會更小,對業務的影響也會更大更快。為了從數據中提取智慧,數據必須經過漫長的數據流環節。沒有壹個完整的系統來保證整個環節的高效運轉,就很難保證能從數據中提取出有價值的東西。所以大數據未來產品的全鏈路是另壹個大趨勢。
6.大數據技術轉向下遊數據消費和應用。
上面提到了大數據的全鏈路發展趨勢,那麽這個長數據鏈路的現狀如何,未來會是什麽趨勢?
我的判斷是,未來大數據技術的創新和實力將轉移到下遊的數據消費和應用。大數據過去十年的發展主要集中在底層框架上,比如壹開始引領大數據潮流的Hadoop,Spark,Flink,消息中間件Kafka,資源調度器Kubernetes等等,每個細分領域都湧現出壹系列優秀的產品。總的來說,在底層技術框架上,大數據領域基本已經打下了良好的基礎。接下來需要做的是如何利用這些技術為企業提供最佳用戶體驗的產品來解決用戶的實際業務問題,或者說未來大數據的重心將從底層走向頂層。以前的大數據創新更偏向於IAAS和PAAS,未來妳會看到更多SAAS類型的大數據產品和創新。從最近壹些國外廠商的收購案例中,可以看出壹些端倪。1,2019 6月7日,谷歌宣布以26億美元收購數據分析公司Looker,並將其並入谷歌雲。2.6月19,10,Salesforce宣布以157億美元的全股票交易收購Tableau,旨在鞏固在數據可視化和其他工具方面的工作,幫助企業解讀所使用和積累的海量數據。3.2065438+2009年9月初,Cloudera宣布收購阿卡迪亞數據。阿卡迪亞數據是壹家由雲原生AI驅動的商業智能實時分析廠商。面向終端用戶的大數據產品將是未來大數據競爭的焦點。我相信未來大數據領域的創新也將來源於此。未來五年,至少會出現壹個像Looker這樣的公司,但很難再產生壹個像Spark這樣的計算引擎。
7.底層技術的集中化和上層應用的全面開花。
學過大數據的人都會感嘆,大數據領域的東西那麽多,尤其是底層技術,感覺學不會。經過多年的廝殺和競爭,湧現出了很多優秀的產品,也有很多產品在慢慢消亡。比如批量處理領域的Spark引擎,基本已經成為批量處理領域的佼佼者,傳統的MapReduce除了壹些老系統之外,不太可能開發新的MapReduce應用。Flink基本上成為了低延遲流處理領域的不二之選,原有的暴風系統也開始慢慢退出歷史舞臺。Kafka在消息中間件領域也占據壟斷地位。未來,底層大數據生態不再有那麽多新的技術和框架,各個細分領域將優勝劣汰,走向成熟,更加集中化。未來更多的創新將來自上層應用或者全鏈路的整合。在大數據的上層應用上,未來會有更多的創新和發展,比如基於大數據的BI產品和AI產品,某個垂直領域的大數據應用等。我相信在未來我們會看到這壹領域更多的創新和發展。
8.開源和閉源齊頭並進
大數據領域不僅有大家熟知的Hadoop、Spark、Flink等開源產品,還有很多優秀的閉源產品,比如AWS上的Redshift、阿裏的MaxCompute等等。雖然這些產品不像開源產品那樣受到開發者的歡迎,但是卻很受很多非互聯網企業的歡迎。因為對於壹個企業來說,考慮采用哪種大數據產品有很多因素,是否開源並不是唯壹的標準。產品是否穩定,是否有商業公司支持,是否足夠安全,是否能與現有系統集成等。往往是壹些企業需要更多考慮的事情,而閉源產品往往在這類企業級產品的特性上更有優勢。
近年來,開源產品受到公有雲的巨大影響,公有雲可以免費享受開源的成果,搶走開源產品背後商業公司的大量市場份額。所以最近,許多開源產品背後的商業公司開始改變策略,有些甚至修改了許可證。但是,我不認為公有雲廠商會殺開源產品背後的商業公司,否則就是殺雞取卵,殺開源產品背後的商業公司。事實上,他們會扼殺開源產品最大的技術創新者,也就是扼殺開源產品本身。我相信開源行業和公有雲廠商最終會達到壹個平衡。開源仍將是壹個主流,是創新的主力,壹些優秀的閉源產品也將占據壹定的市場空間。
最後,我想再次總結壹下這篇文章的要點:
1.目前大數據已經過了最熱的高峰期和泡沫底部期,現在處於穩步發展的階段。2.數據的規模會繼續擴大,大數據會繼續蓬勃發展。3.對數據的實時性需求會更加突出。4.大數據基礎架構向雲的遷移勢不可擋。5.大數據產品將全面聯動。6.大數據技術將轉移到下遊的數據消費和應用。7.底層技術的集中化和上層應用的全面開花。8.開源和閉源齊頭並進。