數據量大。第壹個特點是數據量大,包括采集、存儲和計算。大數據的計量起始單位至少是P(1000 t)、E (1億t)或Z (1億t)。
品種很多。第二個特點是類型和來源的多樣性。包括結構化、半結構化和非結構化數據,具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等。各類數據對數據處理能力提出了更高的要求。
低值密度。第三個特點是數據值密度比較低,或者說是浪中洗沙,彌足珍貴。隨著互聯網和物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度低。如何結合業務邏輯和強大的機器算法挖掘數據價值,是大數據時代最需要解決的問題。
速度快,速度高。第四特征數據增長速度快,處理速度快,時效性要求高。比如搜索引擎要求用戶可以查詢幾分鐘前的新聞,個性化推薦算法要求盡可能實時推薦。這是大數據不同於傳統數據挖掘的壹個顯著特點。