當前位置:股票大全官網 - 股票投資 - 數據挖掘工程師壹般都做什麽?

數據挖掘工程師壹般都做什麽?

數據挖掘工程師是做什麽的?

數據挖掘,從字面上理解,就是在數據中找到有用的東西,哪些東西有用就要看具體的業務目標了。最簡單的就是統計應用了,比如電商數據,如淘寶統計過哪個省購買泳衣最多、哪個省的女生胸罩最大等,進壹步,可以基於用戶的瀏覽、點擊、收藏、購買等行為推斷用戶的年齡、性別、購買能力、愛好等能表示壹個人的畫像,就相當於用這些挖掘出來的屬性來刻畫壹個人,這些還是最簡單的東西,更深層次的比如預測(股票預測),但是比較難。

數據挖掘往往與機器學習離不開。比如分類、聚類、關聯規則挖掘、個性化推薦、預測、神經網絡、深度學習等。

數據挖掘 ?= ?業務知識 ?+ ?自然語言處理技術( NLP ) + ?計算機視覺技術( CV ) + ?機器學習 / 深度學習( ML/DL )

( 1 )其中業務知識具體指的是個性化推薦,計算廣告,搜索,互聯網金融等; NLP , CV 分別是處理文本,圖像視頻數據的領域技術,可以理解為是將非結構化數據提取轉換成結構化數據;最後的ml/dl 技術則是屬於模型學習理論;

( 2 )在選擇崗位時,各個公司都沒有壹套標準的稱呼,但是所做的事情無非 2 個大方向,壹種是主要鉆研某個領域的技術,比如自然語言處理工程師,計算機視覺工程師,機器學習工程師等;壹種是將各種領域技術應用到業務場景中去解決業務需求,比如數據挖掘工程師,推薦系統工程師等;具體的稱呼不重要,重要的是平時的工作內容;

PS :在互聯網行業,數據挖掘相關技術應用比較成功的主要是推薦以及計算廣告領域,而其中涉及到的數據主要也是文本,所以 NLP 技術相對來講比較重要,至於 CV 技術主要還是在人工智能領域(無人車,人臉識別等)應用較多,本人了解有限,相關的描述會較少;

數據挖掘崗位需要具備的3 種基本能力

1. 工程能力

( 1 )編程基礎:需要掌握壹大壹小兩門語言,大的指 C++ 或者 Java ,小的指 Python 或者 shell 腳本;需要掌握基本的數據庫語言;

建議: MySQL + python + C++ ;語言只是壹種工具,看看語法就好;

推薦書籍:《 C++ primer plus 》

( 2 )開發平臺: Linux ;

建議:掌握常見的命令,掌握 Linux 下的源碼編譯原理;

推薦書籍:《 Linux 私房菜》

( 3 )數據結構與算法分析基礎:掌握常見的數據結構以及操作(線性表,隊,列,字符串,樹,圖等),掌握常見的計算機算法(排序算法,查找算法,動態規劃,遞歸等);

建議:多敲代碼,多上 OJ 平臺刷題;

推薦書籍:《大話數據結構》《劍指 offer 》

( 4 )海量數據處理平臺: Hadoop ( mr 計算模型, java 開發)或者 Spark ( rdd 計算模型, scala開發),重點推薦後者;

建議:主要是會使用,有精力的話可以看看源碼了解集群調度機制之類的;

推薦書籍:《大數據 spark 企業級實戰》

2. 算法能力

( 1 )數學基礎:概率論,數理統計,線性代數,隨機過程,最優化理論

建議:這些是必須要了解的,即使沒法做到基礎紮實,起碼也要掌握每門學科的理論體系,涉及到相應知識點時通過查閱資料可以做到無障礙理解;

( 2 )機器學習 / 深度學習:掌握 常見的機器學習模型(線性回歸,邏輯回歸, SVM ,感知機;決策樹,隨機森林, GBDT , XGBoost ;貝葉斯, ?KNN , K-means , EM 等);掌握常見的機器學習理論(過擬合問題,交叉驗證問題,模型選擇問題,模型融合問題等);掌握常見的深度學習模型( CNN ,RNN 等);

建議:這裏的掌握指的是能夠熟悉推導公式並能知道模型的適用場景;

推薦書籍:《統計學習方法》《機器學習》《機器學習實戰》《 UFLDL 》

( 3 )自然語言處理:掌握常見的方法( tf-idf , word2vec , LDA );

3. 業務經驗

( 1 )了解推薦以及計算廣告相關知識;

推薦書籍:《推薦系統實踐》《計算廣告》

( 2 )通過參加數據挖掘競賽熟悉相關業務場景,常見的比賽有 Kaggle ,阿裏天池, datacastle 等。

想要學習數據挖掘的話可以看壹下這篇文章《AI時代就業指南:數據挖掘入門與求職》