近年來,隨著計算機和信息技術的快速發展和普及,工業應用系統規模迅速擴大,工業應用產生的數據呈爆炸式增長。行業/企業大數據往往達到幾百TB甚至幾十到幾百PB的規模,已經遠遠超過現有傳統計算技術和信息系統的處理能力。因此,尋求現實世界中有效的大數據處理技術、方法和手段已經成為迫切需要。目前百度總數據量已經超過1000 Pb,每天需要處理的網頁數據達到10 Pb ~ 100 Pb;淘寶累計交易數據高達100 Pb;Twitter每天發布超過2億條消息,新浪微博每天發布8000萬條消息;中國移動某省電話通信記錄數據每月可達0.5 Pb ~ 1pb;某省會城市公安局路面車輛監控數據三年可達200億,總量120TB。據全球權威IT信息咨詢分析公司IDC的研究報告預測,未來1ZB = 10000 EB = 100000 PB),全球數據量將從2009年的0.8ZB增長到2020年的35 ZB,100000 PB將增長44倍。
幾年前,人們稱大規模數據為“海量數據”,但實際上,大數據的概念早在2008年就已經提出。2008年,在Google成立10周年之際,著名的《自然》雜誌出版了壹期專刊,討論未來大數據處理相關的壹系列技術問題和挑戰,其中提出了“大數據”的概念。
隨著大數據概念的普及,經常有人問,多大的數據才是大數據?事實上,關於大數據很難有壹個非常量化的定義。維基百科給出了壹個定性的描述:大數據是指在壹定時期內,使用傳統的、常用的軟件技術和工具無法獲取、管理和處理的數據集。再者,今天“大數據”壹詞的重點不僅僅是數據規模的定義,更代表著信息技術的發展進入了壹個新時代,代表著爆炸式的數據信息給傳統計算技術和信息技術帶來的技術挑戰和困難,代表著大數據處理所需的新技術和新方法,也代表著大數據分析和應用帶來的新發明、新服務和新發展機遇。