隨著信息技術的快速發展,數據開始爆炸式增長。大數據中的數據不再用幾GB或幾TB來衡量,而是用Pb(1,000 t)、EB(1萬t)或ZB(1億t)來衡量。
2.多樣性
多樣性主要體現在三個方面:多個數據源、多種數據類型和數據之間的強相關性。
數據來源很多,企業面臨的傳統數據主要是交易數據。互聯網和物聯網的發展帶來了各種來源的數據,如社交網站和傳感器。
由於數據來自不同的應用系統和不同的設備,這決定了大數據形式的多樣性。壹般可分為三類:壹是結構化數據,如金融系統數據、信息管理系統數據、醫療系統數據等。,其特點是數據之間的因果關系強;二是非結構化數據,如視頻、圖片、音頻等。,特點是數據之間沒有因果關系;三是半結構化數據,如HTML文檔、電子郵件、網頁等。,特點是數據之間的因果關系較弱。
數據的類型很多,非結構化數據是主要數據。在傳統企業中,數據以表格的形式保存。而70%-85%的大數據是圖片、音頻、視頻、網絡日誌和鏈接信息等非結構化和半結構化數據。
數據和頻繁的互動之間存在很強的相關性,例如遊客在旅行期間上傳的照片和日誌,這些照片和日誌與遊客的位置和行程等信息具有很強的相關性。
3.高速的
這是大數據區別於傳統數據挖掘的最顯著特征。大數據與海量數據的重要區別在於兩個方面:壹方面,大數據的數據規模更大;另壹方面,大數據對處理數據的響應速度有更嚴格的要求。實時分析代替批量分析,數據輸入、處理和丟棄立即生效,幾乎沒有延遲。數據的增長速度和處理速度是大數據高速度的重要表現。
4.價值
雖然企業擁有大量數據,但其中只有極小壹部分是有價值的。大數據背後隱藏的價值巨大。由於大數據中有價值的數據比例很小,因此大數據的真正價值體現在大量各種類型的無關數據中。挖掘出有價值的數據用於未來趨勢和模式的預測和分析,並通過機器學習方法、人工智能方法或數據挖掘方法對其進行深度分析,並將其應用於農業、金融、醫療保健等領域,以創造更大的價值。