常見的數據分析軟件有Apache Hive、SPSS、Excel、Apache Spark、?Jaspersoft BI 套件。
1、Apache Hive
Hive是壹個建立在Hadoop上的開源數據倉庫基礎設施,通過Hive可以很容易的進行數據的ETL,對數據進行結構化處理,並對Hadoop上大數據文件進行查詢和處理等。 Hive提供了壹種簡單的類似SQL的查詢語言—HiveQL,這為熟悉SQL語言的用戶查詢數據提供了方便。
2、SPSS
SPSS for Windows軟件分為若幹功能模塊。可以根據自己的分析需要和計算機的實際配置情況靈活選擇。SPSS針對初學者、熟練者及精通者都比較適用。並且很多群體只需要掌握簡單的操作分析,大多青睞於SPSS。
3、Excel
Excel 可以進行各種數據的處理、統計分析和輔助決策操作,廣泛地應用於管理、統計財經、金融等眾多領域。Excel還提供高級查詢功能,最操作的簡單,其中自動匯總功能簡單靈活。高級數學計算時,Excel也只用壹兩個函數輕松搞定。
4、Apache Spark
Apache Spark是Hadoop開源生態系統的新成員。它提供了壹個比Hive更快的查詢引擎,因為它依賴於自己的數據處理框架而不是依靠Hadoop的HDFS服務。同時,它還用於事件流處理、實時查詢和機器學習等方面。
5、 Jaspersoft BI 套件
Jaspersoft包是壹個通過數據庫列生成報表的開源軟件。行業領導者發現Jaspersoft軟件是壹流的, 許多企業已經使用它來將SQL表轉化為pdf,,這使每個人都可以在會議上對其進行審議。另外,JasperReports提供了壹個連接配置單元來替代HBase。
數據分析註意
1、要註意每種統計分析方法的適用範圍。
許多分析方法對數據的要求很高,如果樣本的分布不符合要求,樣本量數量不足,或者存在大量的偽樣本,都會造成最後結果的偏差甚至是完全錯誤。
2、在選擇壹種數據分析方法的同時,要按照方法的要求整理數據庫。
錯誤的數據庫格式對於研究有時是災難性的。我們在使用任何研究模型之前,都要考慮數據的適用性。同樣,數據的合理轉換也很重要。