現在的社會是壹個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關註。著雲臺的分析師團隊認為,大數據(Big data)通常用來形容壹個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯系到壹起,因為實時的大型數據集分析需要像MapReduce壹樣的框架來向數十、數百或甚至數千的電腦分配工作。
在現今的社會,大數據的應用越來越彰顯他的優勢,它占領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷範圍以及存貨的補給已經得到全面的改善與優化。
“大數據”在互聯網行業指的是這樣壹種現象:互聯網公司在日常運營中生成、累積的用戶網絡行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量。
大數據到底有多大?壹組名為“互聯網上壹天”的數據告訴我們,壹天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當於《時代》雜誌770年的文字量);賣出的手機為37.8萬臺,高於全球每天出生的嬰兒數量37.1萬……
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。 每壹天,全世界會上傳超過5億張圖片,每分鐘就有20小時時長的視頻被分享。然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每壹天所創造出的關於人們自身的數字信息量。
這樣的趨勢會持續下去。我們現在還處於所謂“物聯網”的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的“可穿戴”科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之壹,而從2005年起,用在硬件、軟件、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。 大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是壹種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的癡迷將減弱;擁有了大數據,我們不再需要對壹個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能準確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。 大數據時代,什麽最貴?
十年前,葛大爺曾說過,“21世紀什麽最貴?”——“人才”,深以為然。只是,十年後的今天,大數據時代也帶來了身價不斷翻番的各種數據。由於急速拓展的網絡帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。
壹分鐘內,微博推特上新發的數據量超過10萬;社交網絡“臉譜”的瀏覽量超過600萬……
這些龐大數字,意味著什麽?
它意味著,壹種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實上,當妳仍然在把微博等社交平臺當作抒情或者發議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的“數據財富”,先人壹步用其預判市場走勢,而且取得了不俗的收益。
讓我們壹起來看看——他們是怎麽做的。
這些數據都能幹啥。具體有六大價值:
●1、華爾街根據民眾情緒拋售股票;
●2、對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;
●3、銀行根據求職網站的崗位數量,推斷就業率;
●4、投資機構搜集並分析上市企業聲明,從中尋找破產的蛛絲馬跡;
●5、美國疾病控制和預防中心依據網民搜索,分析全球範圍內流感等病疫的傳播狀況;
●6、美國總統奧巴馬的競選團隊依據選民的微博,實時分析選民對總統競選人的喜好。 “數據是新的石油。”亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時,成立於1881年的世界最大影像產品及服務商柯達正申請破產。
大數據是如此重要,以至於其獲取、儲存、搜索、***享、分析,乃至可視化地呈現,都成為了當前重要的研究課題 。
“當時時變幻的、海量的數據出現在眼前,是怎樣壹幅壯觀的景象?在後臺註視著這壹切,會不會有接近上帝俯視人間星火的感覺?”
這個問題我曾請教過劉建國,中國著名的搜索引擎專家。劉曾主持開發過國內第壹個大規模中英文搜索引擎系統“天網”。
要知道,劉建國曾任至百度的首席技術官,在這樣壹家每天需應對網民各種搜索請求1.7億次(2013年約為8.77億次)的網站中,如果只是在後臺靜靜端坐,可能片刻都不能安心吧。百度果然在提供搜索服務之外,逐漸增添了百度指數,後又建立了基於網民搜索數據的重要產品“貼吧”及百度統計產品等。
劉建國沒有直接回答這個問題,他想了很久,似乎陷入了回憶,嘴角的笑容含著詭秘。
倒是有公司已經在大數據中有接近上帝俯視的感覺,美國洛杉磯就有企業宣稱,他們將全球夜景的歷史數據建立模型,在過濾掉波動之後,做出了投資房地產和消費的研究報告。
在數據可視化呈現方面,我最新接收到的故事是,壹位在美國思科物流部門工作的朋友,很聰明的印度裔小夥子,被Facebook高價挖角,進入其數據研究小組。他後來驚訝地發現,裏面全是來自物流企業、供應鏈方面的技術人員和專家,“Facebook想知道,能不能用物流的角度和流程的方式,分析用戶的路徑和行為。”