(大量數據(IT術語))
編輯
全球知名咨詢公司麥肯錫最早提出“大數據”時代的到來。麥肯錫表示:“數據已經滲透到當今每個行業和商業功能領域,成為重要的生產要素。海量數據的挖掘和應用,預示著新壹波生產力增長和消費者剩余的到來。”“大數據”在物理、生物、環境生態、軍事、金融、通信等行業領域已經存在了壹段時間,但卻是因為近年來互聯網和信息產業的發展而引起人們的關註。
創建背景
編輯
2012“大數據”這個詞被越來越多的提及,人們用它來描述和定義信息爆炸時代產生的海量。
大數據時代即將到來。
根據,並命名了相關的技術發展和創新。曾登上《紐約時報》華爾街日報專欄封面,進入美國白宮官網新聞,出現在國內壹些互聯網主題的講座沙龍,甚至被郭進證券、國泰君安、銀河證券的敏感嗅覺寫進投資推薦報告。[1]
數據在迅速膨脹變大,決定了企業未來的發展。雖然很多企業可能沒有意識到數據爆炸式增長帶來的隱患,但是隨著時間的推移,人們會越來越意識到數據對企業的重要性。
正如《紐約時報》2012年2月的壹篇專欄文章所說,“大數據”時代已經來臨。在商業、經濟和其他領域,決策將基於數據和分析,而不是基於經驗和直覺。
哈佛大學社會學教授加裏·金說:“這是壹場革命。龐大的數據資源已經開始了各個領域的量化過程,所有領域,無論是學術、商業還是政府,都會開始這個過程。”[2]
影響
編輯
大數據
當今社會是壹個飛速發展的社會,科技發達,信息流通。人們的交流越來越密切,生活越來越方便。大數據是這個高科技時代的產物。[3]
隨著雲時代的到來,大數據受到越來越多的關註。大數據通常用來描述壹個公司創建的大量非結構化和半結構化數據,下載到關系數據庫進行分析會耗費太多的時間和金錢。大數據分析往往與雲計算聯系在壹起,因為大數據集的實時分析需要MapReduce這樣的框架將工作分配給幾十臺、幾百臺甚至幾千臺計算機。[2]
當今社會,大數據的應用越來越顯示出優勢,占據越來越多的領域,如電子商務、O2O、物流配送等。利用大數據進行發展的各個領域,正在幫助企業不斷開發新業務,創新運營模式。借助大數據的概念,對消費者行為的判斷、產品銷量的預測、精準的營銷範圍、庫存的補充等都得到了全面的提升和優化。[4]
“大數據”是指互聯網行業的這樣壹種現象:互聯網公司在日常運營中產生和積累的用戶網絡行為數據。這些數據的規模是如此巨大,無法用g或t來衡量。
大數據有多大?壹組名為《互聯網上的壹天》的數據告訴我們,壹天之內,互聯網產生的所有內容可以刻成654.38+6800萬張DVD;發送的郵件多達2940億封(相當於美國兩年的紙質信件數量);200萬社區帖子(相當於770年的《時代》雜誌);手機銷量37.8萬部,高於全球每天出生嬰兒數371,000...[1]
到2012年底,數據量已經從TB(1024GB=1TB)躍升到PB(1024TB=1PB)和EB(1024PB=1EB)。根據國際數據公司(IDC)的研究結果,2008年全球數據量為0.49ZB,2009年為0.8ZB,2065年增加到1.2ZB,438+065,438+0,2065年數字高達1.82ZB,438+0。到2012年,人類生產的所有印刷品的數據量是200PB,人類歷史上說的所有話的數據量是5EB左右。根據IBM的研究,整個人類文明獲得的所有數據的90%都是在過去兩年內產生的。到2020年,全球產生的數據規模將達到現在的44倍。[5]每天全球上傳超過5億張圖片,每分鐘分享20小時視頻。然而,即使是人們每天創造的所有信息——包括語音通話、電子郵件和消息在內的各種通信,以及上傳的所有圖片、視頻和音樂——也無法與每天創造的關於人本身的數字信息相匹配。
這壹趨勢將繼續下去。我們還處於所謂的“物聯網”的初級階段,隨著技術的成熟,我們的設備、車輛和快速發展的“可穿戴”技術將能夠相互連接和通信。科學和技術的進步使創造、獲取和管理信息的成本降低到2005年的六分之壹,自2005年以來,對硬件、軟件、人才和服務的商業投資也增加了整整50%,達到4000億美元。[5]
大數據的本質
大數據帶來的三個顛覆性的觀念變革:全數據,不是隨機抽樣;是大方向,不是精確指導;這是壹種相關性,而不是因果關系。[6]
A.不是隨機樣本,而是所有數據:在大數據時代,我們可以分析更多的數據,有時甚至可以處理與某個特殊現象相關的所有數據,而不是依賴隨機抽樣(隨機抽樣,我們以前認為是理所當然的,但高性能的數字技術讓我們意識到這其實是壹種人為的限制);
B.不是準確,而是雜糅:研究數據如此之多,以至於我們不再熱衷於追求準確;之前要分析的數據很少,所以壹定要盡可能準確的量化我們的記錄。隨著規模的擴大,對精準的執念會減弱;有了大數據,我們不再需要對壹個現象刨根問底,只要掌握大致的發展方向,適當忽略微觀層面的準確性,宏觀層面會有更好的洞察;
C.不是因果關系,而是相關性:我們不再熱衷於尋找因果關系。尋找因果關系是人類由來已久的習慣。大數據時代,我們不需要密切關註事物之間的因果關系,而應該尋找事物之間的相關性;相關性可能不會告訴我們事情發生的確切原因,但它會提醒我們事情正在發生。
數據值
大數據時代什麽最貴?
10年前,葛爺爺曾經說過:“21世紀什麽最貴?”——《才華》,深以為然。然而,十年後的今天,大數據時代也帶來了各種價值不斷翻倍的數據。由於網絡帶寬的快速膨脹,以及各種可穿戴設備帶來的大量數據,數據的增長從未停止,甚至呈爆炸式增長。[7]
壹分鐘內,微博Twitter新增數據量超過65438+萬;社交網絡“臉書”的瀏覽量超過600萬...
這些龐大的數字意味著什麽?
意味著壹種全新的致富手段可能就在眼前,其價值堪比石油和黃金。
事實上,當妳還在利用微博等社交平臺作為表達感情或發表評論的工具時,華爾街的專家們已經在挖掘這些互聯網的“數據財富”,用它來提前預測市場走勢,並取得了不錯的效果。
讓我們來看看他們是如何做到的。
這些數據能做什麽?有六個具體值:
●1.華爾街根據公眾情緒出售股票;
●2.對沖基金根據購物網站上的客戶評論分析企業產品的銷售情況;
●3.銀行根據求職網站上的職位數量推斷就業率;
●4.投資機構收集分析上市公司報表,尋找破產線索;
●5.美國疾病控制和預防中心根據網民的搜索,分析流感等疾病在全球的傳播情況;
●6.美國總統奧巴馬的競選團隊根據選民的微博,實時分析選民對總統候選人的偏好。[1]
形象化
“數據是新的石油。”亞馬遜前首席科學家安德烈亞斯·韋根德(Andreas Weigend)說。Instagram以1億美元出售時,成立於1881的全球最大影像產品和服務提供商柯達正申請破產。
大數據如此重要,其獲取、存儲、搜索、* * * *共享、分析乃至可視化呈現都成為當前重要的研究課題[1]。
“這時候,千變萬化、海量的數據出現在我們面前。多麽壯觀的場景啊?在後臺看這壹切,會不會有壹種親近上帝,俯瞰人間火花的感覺?”
我咨詢了中國著名的搜索引擎專家劉建國。劉曾主持開發中國第壹個大型中英文搜索引擎系統“天網”。
要知道,劉建國曾經是百度的首席技術官。在這樣壹個每天要處理網民654.38+7億次(2065.438+03年約8.77億次)各種搜索請求的網站裏,如果他只是靜靜地坐在後臺,可能壹刻都不會安心。果不其然,除了提供搜索服務,百度還逐漸加入了百度指數,後來還建立了重要產品“貼吧”和基於網民搜索數據的百度統計產品。
劉建國沒有直接回答這個問題。他想了很久,似乎陷入了回憶。他嘴角的微笑是神秘的。
然而,壹些公司在大數據方面已經感受到了接近上帝的俯視。在美國洛杉磯,有公司聲稱他們對全球夜景的歷史數據進行了建模,在過濾掉波動後,做出了投資房地產和消費的研究報告。
在數據可視化方面,我收到的最新故事是,壹個在美國思科公司物流部門工作的朋友,壹個非常聰明的印度小夥子,被臉書公司以高價錄用,進入其數據研究小組。他後來驚訝地發現,這裏滿是來自物流企業和供應鏈的技術人員和專家。“臉書想知道它能否從物流和流程的角度分析用戶的路徑和行為。"