在大數據處理分析過程中常用的六大工具:
1、Hadoop
Hadoop是壹個能夠對大量數據進行分布式處理的軟件框架。但是Hadoop是以壹種可靠、高效、可伸縮的方式進行處理的。Hadoop是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級數據。此外,Hadoop依賴於社區服務器,因此它的成本比較低,任何人都可以使用。
2、HPCC
HPCC,HighPerformanceComputingand(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了“重大挑戰項目:高性能計算與通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決壹批重要的科學與技術挑戰問題。HPCC是美國實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟件,以支持太位級網絡傳輸性能,開發千兆比特網絡技術,擴展研究和教育機構及網絡連接能力。
3、Storm
Storm是自由的開源軟件,壹個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣。
4、ApacheDrill
為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟件基金會近日發起了壹項名為“Drill”的開源項目。ApacheDrill實現了Google'sDremel.
據Hadoop廠商MapR公司產品經理TomerShiran介紹,“Drill”已經作為Apache孵化器項目來運作,將面向全球軟件工程師持續推廣。
5、RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在壹個非常大的程度上有著先進技術。它數據挖掘任務涉及範圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
6、PentahoBI
PentahoBI平臺不同於傳統的BI產品,它是壹個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將壹系列企業級BI產品、開源軟件、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得壹系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在壹起,構成壹項項復雜的、完整的商務智能解決方案。
1、大數據是壹個含義廣泛的術語,是指數據集,如此龐大而復雜的,他們需要專門設計的硬件和軟件工具進行處理。該數據集通常是萬億或EB的大小。
2、這些數據集收集自各種各樣的來源:
a、傳感器、氣候信息、公開的信息、如雜誌、報紙、文章。
b、大數據產生的其他例子包括購買交易記錄、網絡日誌、病歷、事監控、視頻和圖像檔案、及大型電子商務。
c、大數據分析是在研究大量的數據的過程中尋找模式,相關性和其他有用的信息,可以幫助企業更好地適應變化,並做出更明智的決策。