r語言是壹種自由軟件編程語言和運行環境,主要用於統計分析、繪圖和數據挖掘。R最初是由新西蘭奧克蘭大學的Ross Ihaka和Robert Jetman(因此得名R)開發的,現在由“R開發核心團隊”開發。r是基於S語言的GNU項目,所以也可以看作是S語言的實現。通常用S語言寫的代碼,不需要修改就可以在R環境下運行。r的語法來源於Scheme。
R的源代碼可以免費下載使用,也有編譯版的可執行文件可以下載,可以運行在各種平臺上,包括UNIX(包括FreeBSD和Linux)、Windows和MacOS。r主要是命令行操作,也有人開發了幾個圖形用戶界面。
相關推薦:Python教程
R的功能可以通過用戶編寫的包來增強。增加的功能包括特殊統計技術、繪圖功能、編程接口和數據輸出/輸入功能。這些軟件包是用R語言,LaTeX,Java,最常用的C語言和Fortran編寫的。下載的可執行版本會附帶多個具有核心功能的軟件包,根據CRAN記錄有上千種不同的軟件包。有些是常用的,比如計量經濟學,金融分析,人文研究,人工智能。
Python和R語言的共同特征
Python和R在數據分析和數據挖掘方面都有專業全面的模塊,很多常用函數如矩陣運算、向量運算等都有高級用法。
Python和R具有多平臺適應性,linux和window都可以,代碼可移植。
Python和R接近MATLAB、minitab等常用數學工具。
Python和R語言的區別
數據結構方面,從科學計算的角度來看,R中的數據結構非常簡單,主要包括向量(壹維)、多維數組(二維矩陣)、列表(非結構化數據)和數據幀(結構化數據)。而Python則包含了更豐富的數據結構來實現更精確的數據訪問和內存控制,比如多維數組(讀寫和有序)、元組(只讀和有序)、集合(唯壹和無序)、字典(鍵值)等等。
Python比r快,Python可以直接處理G的數據;r不能。在分析數據時,R需要通過數據庫(通過groupby)將大數據轉化為小數據,然後再交給R進行分析,所以R不能直接分析行為列表,只能分析統計結果。
Python是壹種平衡的語言,可以用在各個方面。Python在調用其他語言、連接讀取數據源、操作系統、正則表達式、文字處理等方面優勢明顯。r在統計學上更突出。
Python中的Pandas借鑒了R的dataframes,R中的rvest參考了Python的BeautifulSoup。這兩種語言在某種程度上是互補的。總的來說,我們認為Python在計算機編程和網絡爬蟲方面比R有優勢,而R在統計分析方面是更高效的獨立數據分析工具。所以同時學習Python和R刷才是數據科學的王道。