目前,大數據的趨勢已經逐漸從概念走向落地,在IT人跟隨大數據浪潮的轉型中,各大企業對大數據高端人才的需求也越來越迫切。這壹趨勢也為希望從事大數據工作的人提供了壹個難得的職業機會。
思數雲計算與大數據服務中心,簡稱思數舒雲(隸屬於北京思數科技有限公司),是國內專業的大數據分析培訓咨詢機構。中國雲計算大數據處理委員會聯合中科院軟件所、清華大學、谷歌、雅虎、騰訊、阿裏、移動研究院等大數據技術人員,於2012成立了“紐比-思數雲服務”大數據服務中心。
斯舒雲從長期實踐中總結出大數據的三個主要就業方向:大數據系統R&D人才、大數據應用開發人才、大數據分析人才。在這三個方向,他們的基本崗位壹般是大數據系統R&D工程師、大數據應用開發工程師和數據分析師。
從企業角度來看,大數據人才大致可以分為三個領域:產品和市場分析、安全和風險分析、商業智能。產品分析是指通過算法測試新產品的有效性,這是壹個比較新的領域。在安全和風險分析方面,數據科學家知道需要收集哪些數據,如何快速分析,通過分析信息最終有效遏制網絡入侵或抓捕網絡犯罪分子。
壹. ETL研究和開發
隨著數據的種類越來越多,企業對數據集成專業人才的需求越來越大。ETL開發人員與不同的數據源和組織打交道,從不同的來源提取數據,進行轉換並導入數據倉庫,以滿足企業的需求。
ETL的研發主要負責將關系數據、平面數據文件等分散異構的數據源中的數據提取到壹個臨時的中間層進行清洗、轉換和集成,最終加載到壹個數據倉庫或數據集市中,成為聯機分析處理和數據挖掘的基礎。
目前ETL行業比較成熟,相關崗位的工作生命周期比較長,通常由內部員工和外包承包商完成。大數據時代ETL人才炙手可熱的原因之壹是,在企業大數據應用初期,Hadoop只是窮人的ETL。
二、Hadoop開發
Hadoop的核心是HDFS和MapReduce。HDFS提供海量數據的存儲,MapReduce提供數據的計算。隨著數據集規模的不斷擴大和傳統BI數據處理的高成本,企業對Hadoop及相關廉價數據處理技術如Hive、HBase、MapReduce、Pig等的需求將持續增長。如今,擁有Hadoop框架經驗的技術人員是最搶手的大數據人才。
第三,可視化(前端演示)工具的開發
海量數據的分析是壹個很大的挑戰,Spotifre、Qlikview、Tableau等新型數據可視化工具可以直觀高效地展示數據。
可視化開發是可視化開發工具通過在可視化開發工具提供的圖形用戶界面上操作界面元素,自動生成應用軟件。跨多個資源和級別連接所有數據也很容易。經過時間考驗,完全可擴展、功能全面的可視化組件庫為開發人員提供了壹個完整且易於使用的組件集合,以構建極其豐富的用戶界面。
以前數據可視化屬於商業智能開發人員的範疇,但是隨著Hadoop的興起,數據可視化已經成為壹個獨立的專業技能和崗位。
第四,信息架構開發
大數據重新點燃了主數據管理的熱潮。充分利用企業數據,支持決策,需要非常專業的技能。信息架構師必須知道如何定義和歸檔關鍵元素,以確保以最有效的方式管理和利用數據。信息架構師的關鍵技能包括主數據管理、業務知識和數據建模。
動詞 (verb的縮寫)數據倉庫研究
數據倉庫是所有類型數據的戰略性集合,支持企業所有級別的決策過程。它是壹個單獨的數據存儲,用於分析報告和決策支持。為企業提供指導業務流程改進和監控時間、成本、質量和控制所需的商業智能。
數據倉庫專家熟悉Teradata、Neteeza、Exadata的大數據壹體機。可以在這些壹體機上完成數據集成、管理和性能優化。
第六,OLAP發展
隨著數據庫技術的發展和應用,數據庫存儲的數據量已經從80年代的兆字節(M)和千兆字節(G)發展到現在的兆字節(T)和千兆字節(P)。與此同時,用戶的查詢需求也越來越復雜,不僅涉及到查詢或操作壹個關系表中的壹條或幾條記錄,還涉及到對多個表中數千萬條記錄的數據進行分析和信息處理。聯機分析處理(OLAP)系統負責解決這類海量數據處理問題。
OLAP在線分析的開發人員負責從關系或非關系數據源中提取數據以建立模型,然後創建數據訪問的用戶界面以提供高性能的預定義查詢功能。
七、數據科學研究
這個崗位過去也叫數據架構研究。數據科學家是壹種全新的工作類型,可以將企業數據和技術轉化為企業商業價值。隨著數據科學的發展,越來越多的實際工作將針對數據,這將使人類能夠理解數據,從而理解自然和行為。因此,數據科學家首先應該具備優秀的溝通能力,能夠同時向IT部門和業務部門的領導解釋數據分析的結果。
壹般來說,數據科學家是分析師和藝術家的結合體,需要具備多種跨學科的科學和業務技能。
八、數據預測(數據挖掘)分析
營銷部門經常使用預測分析來預測用戶行為或目標用戶。預測分析開發人員的壹些場景似乎類似於數據科學家,即通過基於企業歷史數據的假設來測試閾值和預測未來的業績。
九、企業數據管理
為了提高數據質量,企業必須考慮數據管理,設立數據管家職位。這個崗位的工作人員需要能夠利用各種技術工具收集企業周圍的大量數據,對數據進行清洗和標準化,並將數據導入數據倉庫成為可用版本。然後,通過報告和分析技術,數據被切片、切塊並交付給成千上萬的人。作為數據管家,人們需要保證市場數據的完整性、準確性、唯壹性、真實性和不冗余性。
X.數據安全研究
數據安全崗位主要負責企業大型服務器、存儲、數據安全的管理,以及網絡與信息安全項目的規劃、設計和實施。數據安全研究人員還需要具備較強的管理經驗、運維管理知識和能力,對企業傳統業務有深入的了解,才能保證企業數據安全完整。
;