大數據時代的到來
互聯網特別是移動互聯網的發展,加速了信息化向社會經濟和人們日常生活各個方面的滲透。有數據顯示,1998年全球網民月平均流量為1MB(兆字節),2000年為100MB,2003年為100 MB,2008年為10GB (10 GB等於1024)全網總流量達到65438中國網民數量世界第壹,每天產生的數據量也在世界前列。淘寶網站每天的交易量超過幾千萬,每天的數據生成量超過50TB(1TB等於1000GB),存儲容量40PB(1PB等於1000TB)。目前百度總數據接近1,000 PB,存儲網頁數量接近1萬億頁。每天,它都要處理大約60億次搜索請求和幾十Pb的數據。壹個8Mbps(每秒兆比特)的攝像頭壹小時可以產生3.6GB的數據。如果壹個城市安裝了幾十萬個交通和安防攝像頭,每個月產生的數據量會達到幾十PB。醫院也是數據集中的地方。目前壹個病人的CT圖像數據量是幾十GB,而我國每年的門診人數是幾十億,他們的信息需要長期保存。總之,大數據存在於各行各業,壹個大數據時代正在到來。
信息爆炸並非始於今日,而是近年來,人們感受到了大數據的飛速發展。壹方面網民數量在增加,另壹方面以物聯網、家電為代表的聯網設備數量增長更快。2007年有5億臺設備接入互聯網,人均0.1臺設備。2013年,全球將有500億臺設備接入互聯網,人均70臺設備。隨著寬帶的發展,人均網絡接入帶寬和流量也迅速增加。全球新產生的數據每年都在以40%的速度遞增,也就是說,每兩年信息總量就可以翻壹番,而且這種趨勢還會持續下去。目前,單個數據集的容量超過幾十TB甚至PB的情況並不少見,其規模之大,常規軟件工具無法在允許的時間內捕獲、管理和處理。
數據規模越大,處理難度越大,但挖掘出來可能越有價值,這也是大數據火熱的原因。首先,大數據反映的是民情民意。網民在互聯網上產生的海量數據記錄了他們的思想、行為乃至情緒,是信息時代現實社會與網絡空間深度融合的產物,蘊含著豐富的內涵和大量的規律性信息。據中國互聯網絡信息中心統計,2012年末,我國網民規模為5.64億,手機網民規模為4.2億。通過分析相關數據,我們可以了解公眾的需求、要求和意見。其次,企業和政府的信息系統每天都在不斷產生大量的數據。根據賽門鐵克的研究報告,全球企業的總信息存儲量已經達到2.2ZB(1ZB等於1000EB),年增長率為67%。醫院、學校和銀行也收集和存儲大量信息。政府可以部署傳感器和其他傳感單元來收集環境和社會管理所需的信息。2011年,英國《自然》雜誌發表專刊指出,如果我們能夠更有效地組織和利用大數據,人類將獲得更多機會,發揮科技對社會發展的巨大推動作用。
大數據應用領域
大數據技術可以應用到各行各業。在宏觀經濟方面,IBM日本公司建立了經濟指數預測體系,從互聯網新聞中搜索了480個影響制造業的經濟數據,計算出采購經理人指數的預測值。印第安納大學利用谷歌提供的情緒分析工具,從近1000萬網民留言中總結出6種情緒,然後預測道瓊斯工業平均指數的變化,準確率高達87%。在制造業方面,華爾街對沖基金根據購物網站上的客戶評論來分析企業產品的銷售情況。壹些企業利用大數據分析實現采購和合理庫存的管理,並通過分析在線數據了解客戶需求和把握市場趨勢。有數據顯示,全球零售商每年因盲目采購造成的銷售損失高達6543.8+0000億美元,這方面的數據分析大有可為。
在農業領域,矽谷有壹家氣候公司,它從美國氣象局等數據庫中獲取幾十年的天氣數據,並對歷年的降雨量、溫度、土壤條件和作物產量之間的相關性做出精確的圖表,預測未來幾年農場的年產量,並向農民出售個性化的保險。在商業領域,沃爾瑪通過分析銷售數據了解顧客的購物習慣,獲得適合壹起銷售的商品。還可以細分客戶群體,提供個性化服務。在金融領域,華爾街“德溫特資本市場”公司分析3.4億微博賬戶的消息,判斷人們的情緒,根據人們高興時買股票,焦慮時賣股票的規律,決定買賣公司股票。阿裏公司根據中小企業在淘寶上的交易狀況,篩選出財務健康、誠信的企業,給予無擔保貸款。目前已放貸300多億,壞賬率只有0.3%。
在醫療保健領域,“谷歌流感趨勢”項目根據網民的搜索內容,分析流感和其他疾病在全球的傳播情況。與美國疾病控制和預防中心提供的報告相比,追蹤疾病的準確率達到97%。社交網絡為眾多慢性病患者提供了壹個交流臨床癥狀、分享診療經驗的平臺,使醫生可以獲得通常在醫院得不到的臨床效果統計數據。基於人類基因的大數據分析,可以實現對癥下藥的個性化治療。在社會治安管理領域,通過對手機數據的挖掘,可以分析流動人口的實時動態來源、出行、實時交通信息和擁堵情況。通過使用短信、微博、微信和搜索引擎,我們可以收集熱點事件,挖掘民意,追蹤虛假信息的來源。美國麻省理工學院(MIT)處理超過10萬人的手機通話、短信和空間位置,提取人們行為的時空規律,預測犯罪。在科學研究領域,基於密集數據分析的科學發現已經成為繼實驗科學、理論科學、計算科學之後的第四個例子,基於大數據分析的材料基因組學、合成生物學正在興起。
麥肯錫公司2011報告推測,大數據如果在美國用於醫療保健,每年將產生3000億美元的潛在價值,如果在歐洲用於公共管理,每年將獲得2500億歐元的潛在價值;服務提供商可以通過使用個人位置數據為潛在消費者獲得每年6000億美元的盈余;利用大數據分析,零售商可以增加60%的營業利潤,制造設備的組裝成本將降低50%。
大數據技術的挑戰與啟示
目前大數據技術的應用還存在壹些困難和挑戰,體現在大數據挖掘的四個環節。首先,在數據收集方面。要對來自網絡的數據,包括物聯網、機構信息系統等,進行時空標記,去偽存真,盡可能收集異構甚至異構的數據,必要時與歷史數據進行對比,從多個角度驗證數據的全面性和可信度。第二是數據存儲。為了實現低成本、低能耗和高可靠性的目標,通常采用冗余配置、分布式和雲計算技術。存儲時要按照壹定的規則對數據進行分類,通過過濾和去重來減少存儲容量,同時增加便於日後檢索的標簽。第三是數據處理。壹些行業的數據涉及上百個參數,其復雜性不僅體現在數據樣本本身,還體現在多源、異構實體、多空間的動態交互。傳統方法難以描述和度量,處理復雜度很高。需要對降維後的高維圖像等多媒體數據進行測量和處理,利用上下文相關性進行語義分析,從大量動態的、可能存在歧義的數據中綜合信息,輸出可理解的內容。第四是結果的可視化呈現,讓結果更直觀,便於洞察。目前,計算機智能雖然有了很大的進步,但只能分析小規模、結構化或類結構化的數據,更談不上深度數據挖掘,現有的數據挖掘算法也很難在不同行業通用。
大數據技術的應用前景非常光明。當前,我國正處於全面建設小康社會的進程中,工業化、信息化、城鎮化、農業現代化任務十分繁重。建設下壹代信息基礎設施,發展現代信息技術產業體系,完善信息安全體系,促進信息網絡技術的廣泛應用,是實現四化同步發展的保障。大數據分析對於我們深刻認識世情國情、把握規律、實現科學發展、科學決策具有重要意義。我們必須重新認識數據的重要價值。
為了開發大數據這座金礦,我們還有很多工作要做。首先,大數據分析需要大數據技術和產品支持。壹些發達國家的信息技術(IT)公司通過加大開發力度和兼並,提前努力向大數據解決方案提供商轉型。國外壹些公司打出招牌,免費承接大數據分析,不僅是培訓,還可以獲取情報。過度依賴國外大數據分析技術和平臺,難以避免信息泄露的風險。壹些日常生活信息看似無關緊要,但實際上,我們也可以從中觸摸到國家經濟社會脈搏。因此,我們需要有自主可控的大數據技術和產品。2012年3月,美國政府發布大數據研究與發展倡議,這是繼1993宣布“信息高速公路”之後的又壹重大技術部署。聯邦政府和壹些部委已經為大數據的發展安排了資金。中國和發達國家有很多差距,需要國家政策支持。
世界上人口最多的中國會產生最多的數據,但我們對數據保存不夠重視,存儲的數據利用率不高。此外,我國壹些部門和機構擁有大量數據卻不願意與其他部門共享,導致信息不全或重復投入。政府要通過體制機制改革,打破數據分離和封鎖,重視信息公開,重視數據挖掘。美國聯邦政府建立了統壹的數據開放門戶網站,為社會提供信息服務,鼓勵挖掘和利用。比如提供當地天氣與航班延誤的關系,促進航空公司提高準點率。
大數據的挖掘和利用要有法可依。全國人大去年底通過的加強網絡信息保護的決定是壹個好的開始。當前,需要盡快制定壹部《信息公開法》,以適應大數據時代的到來。現在很多機構和企業都有大量的客戶信息。既要鼓勵面向群體、服務社會的數據挖掘,又要防止侵犯個人隱私;既提倡數據共享,又防止數據被濫用。此外,還需要定義數據挖掘和利用的權限和範圍。大數據系統本身的安全性也值得特別關註。技術安全和管理系統安全並重,防止信息被破壞、篡改、泄露或竊取,保護公民和國家的信息安全。
大數據時代呼喚創新人才。蓋特納咨詢公司預測,大數據將在全球範圍內帶來440萬個新的IT崗位和數千萬個非IT崗位。麥肯錫預測,美國到2065,438+08年需要44萬-49萬深度數據分析人才,缺口654,38+04萬-654,38+09萬;有654.38+0.5萬的管理者熟悉本單位的需求,了解大數據的技術和應用,這方面的人才缺口更大。中國是人才大國,但能理解和應用大數據的創新型人才是稀缺資源。
大數據是新壹代信息技術的集中體現,是應用驅動力強的服務領域,是潛力無限的新興產業領域;目前其標準和產業結構尚未形成,這是中國實現跨越式發展的寶貴機遇。我們應該從戰略上重視大數據的開發利用,將其作為轉變經濟增長方式的有效抓手,但要註意科學規劃,避免壹哄而上。
(作者:中國工程院院士)