當前位置:股票大全官網 - 基金投資 - 數據分析壹般用什麽工具啊?

數據分析壹般用什麽工具啊?

六個用於大數據分析的最好工具

壹、Hadoop

Hadoop 是壹個能夠對大量數據進行分布式處理的軟件框架。但是 Hadoop 是以壹種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區服務器,因此它的成本比較低,任何人都可以使用。

二、HPCC

HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了“重大挑戰項目:高性能計算與 通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決壹批重要的科學與技術挑戰問題。HPCC是美國 實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟件,以支持太位級網絡傳輸性能,開發千兆 比特網絡技術,擴展研究和教育機構及網絡連接能力。

三、Storm

Storm是自由的開源軟件,壹個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業包括Groupon、淘寶、支付寶、阿裏巴巴、樂元素、Admaster等等。

Storm有許多應用領域:實時分析、在線機器學習、不停頓的計算、分布式RPC(遠過程調用協議,壹種通過網絡從遠程計算機程序上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫,即數據抽取、轉換和加載)等等。Storm的處理速度驚人:經測 試,每個節點每秒鐘可以處理100萬個數據元組。Storm是可擴展、容錯,很容易設置和操作。

四、Apache Drill

為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟件基金會近日發起了壹項名為“Drill”的開源項目。Apache Drill 實現了 Google’s Dremel.

據Hadoop廠商MapR Technologies公司產品經理Tomer Shiran介紹,“Drill”已經作為Apache孵化器項目來運作,將面向全球軟件工程師持續推廣。

五、RapidMiner

RapidMiner是世界領先的數據挖掘解決方案,在壹個非常大的程度上有著先進技術。它數據挖掘任務涉及範圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。

六、Pentaho BI

Pentaho BI 平臺不同於傳統的BI 產品,它是壹個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將壹系列企業級BI產品、開源軟件、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得壹系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在壹起,構成壹項項復雜的、完整的商務智能解決方案。