1.說兩個與分析或計算機科學相關的項目?妳如何衡量結果?
2.如何讓壹個網絡爬蟲更快,提取更好的信息,更好的匯總數據,得到壹個幹凈的數據庫?
3.有什麽推廣價值,關鍵性能指標,穩健性,模型擬合,實驗設計,2/8原理?
4.什麽是協同過濾,n-grams,map reduce和余弦距離?
5.點擊流數據應該實時處理嗎?為什麽?哪個部分應該實時處理?
6.如何設計解決抄襲的方案?
7.如何驗證壹個個人支付賬戶被多人使用?
8.什麽是概率合並(又名模糊合並)?使用SQL處理還是其他語言方便?您會選擇使用哪種語言來處理半結構化數據?
9.妳覺得好數據和好模型哪個更好?同時,妳如何定義“好”?有沒有適用於所有情況的通用模型?妳不知道有些模型不是那麽好定義的嗎?
10,妳最喜歡的編程語言是什麽?為什麽?
妳如何處理缺乏數據的問題?有什麽加工工藝推薦?
12.大數據的詛咒是什麽?
13.告訴妳最喜歡統計軟件的三個理由。
14,SAS,R,Python,Perl語言有什麽區別?
15.妳喜歡TD數據庫的哪些特性?
16,有沒有參與過數據庫和數據模型的設計?
17.有沒有參與過儀表盤的設計和指標的選取?妳對商業智能和報告工具有什麽看法?
18,請舉例說明mapreduce的工作原理?在什麽應用場景下效果好?雲的安全問題是什麽?
19.妳打算怎麽發1萬營銷活動郵件?妳如何優化交付?妳如何優化反應速度?能不能把這兩個優化分開?
20.如果幾個客戶查詢ORACLE數據庫效率低。為什麽?怎麽做才能把速度提高10倍以上,更好地處理大量輸出?
21.如何將非結構化數據轉化為結構化數據?真的有必要做這樣的改造嗎?將數據保存為平面文本文件比保存為關系數據庫更好嗎?
22.什麽是哈希表碰撞攻擊?如何避免?多久發生壹次?
23.如何判斷mapreduce進程負載均衡性好?什麽是負載平衡?
24.妳處理過白名單嗎?主要規則?(在欺詐或爬行檢查的情況下)
25.妳覺得100個小哈希表好還是壹個大哈希表好,從內部還是運行速度來說?數據庫分析的評價?
26.為什麽樸素貝葉斯很差?如何用樸素貝葉斯改進爬蟲檢測算法?
27.普通線性回歸模型有哪些缺陷?妳知道其他回歸模型嗎?
28.什麽是明星模特?什麽是查找表?
29.可以用excel建立邏輯回歸模型嗎?我該如何解釋建立過程?
30.在SQL,Perl,C++,Python等的編程過程中。,是否對相關代碼或算法進行了優化以提高速度?怎麽樣,多少錢?
31,5天準確率90%的解還是10天準確率10%的解?要看什麽內容?
32.定義:QA(質量保證),六適馬和實驗設計。可以舉壹個好的和不好的實驗設計的例子嗎?
33.什麽是敏感性分析?靈敏度越低(即魯棒性越好)和預測能力越低好還是正好相反?妳如何使用交叉驗證?如何看待在數據集中插入噪聲數據來測試模型的靈敏度這壹想法?
34.妳覺得不到50片葉子的決策樹比大的好嗎?為什麽?
35.精算是統計學的壹個分支嗎?如果沒有,為什麽?
36.給出壹個不符合高斯分布和對數正態分布的數據案例。給出壹個分布非常混亂的數值例子。
37.如何建議壹個非參數置信區間?
38.妳怎麽證明妳帶來的算法改進和不做任何改動相比真的有效?妳熟悉A/B考試嗎?
39.為什麽均方差不是衡量模型的好指標?妳建議用哪個指標來代替?
40.對於邏輯回歸、決策樹和神經網絡。15年來這些技術有哪些重大改進?
41.除了主成分分析,妳還使用其他數據降維技術嗎?妳想怎麽逐漸回歸?妳熟悉的逐步回歸技術有哪些?什麽時候完整數據比降維數據或樣本更好?
42.如何創建關鍵詞分類?
43.您是否熟悉極值理論、蒙特卡羅邏輯或其他數理統計方法來正確評估稀疏事件的概率?
44.什麽是歸因分析?如何識別歸因和相關系數?比如說。
45.如何定義和衡量壹個指標的預測能力?
46.如何找到欺詐檢測評分技術的最佳規則集?妳是如何處理規則冗余、規則發現及其本質的?壹個規則集的近似解可行嗎?如何找到可行的近似方案?妳如何決定這個解決方案足夠好,從而停止尋找另壹個更好的解決方案?
47.什麽是概念證明?
48.什麽是僵屍網絡?怎麽考?
49.妳用過API接口嗎?什麽樣的API?是谷歌還是亞馬遜還是軟件即時服務?
50.什麽時候自己編碼比用數據科學家開發的軟件包更好?
51.可視化使用什麽工具?妳如何評價《畫皮》中的Tableau?r?SAS?有效地在壹張圖中顯示五維?
52.是假陽性還是假陰性?
53.主要和什麽樣的客戶合作:內部,外部,銷售部門/財務部門/市場部/IT部門?妳有咨詢經驗嗎?與供應商打交道,包括供應商的選擇和測試。
54.妳熟悉軟件生命周期嗎?以及IT項目的生命周期,從收入需求到項目維護?
55.cron任務是什麽?
56.妳是單身編碼員嗎?還是開發商?還是設計師?
57.是什麽讓壹個圖形具有誤導性,難以閱讀或解釋?壹個有用的圖形功能?
58.妳熟悉價格優化、價格彈性、庫存管理和競爭情報嗎?分別給出案例。
59.Zillow的算法是如何工作的?
60.如何查不良目的的虛假評論或虛假FB賬號?
61.如何創建壹個新的匿名數字賬戶?
62.有沒有想過自己創業?是什麽樣的想法?
63.妳覺得賬號和密碼輸入的登錄框會消失嗎?會被什麽取代?
64.妳用過時間序列模型嗎?時間延遲的相關性?相關地圖?光譜分析?信號處理與濾波技術?在什麽樣的場景裏?
65.妳最佩服哪門數據科學?從哪裏開始?
66.妳是如何對數據科學產生興趣的?
67.妳認為未來20年最好的五種預測方法是什麽?
68.什麽是推薦引擎?它是如何工作的?
69.什麽是精密測試?模擬如何以及何時可以幫助我們不使用精確測試?
70.妳認為怎樣才能成為壹名優秀的數據科學家?
71.妳覺得數據科學家是藝術家還是科學家?
72.如何立即知道壹篇文章(比如報紙)中發表的統計數據是錯誤的,或者是用來支持作者的論點,而不僅僅是列舉關於某件事的信息?比如,如何看待政府每月定期在媒體上發布的失業統計數據?如何才能讓這些數據更加準確?
73.舉幾個數據科學的“最佳實踐案例”。
74.什麽是效率曲線?他們的缺點是什麽,妳是如何克服的?
75.妳處理過的最大數據量是多少?妳是怎麽對付他們的?處理的結果。
76.壹個好的快速聚類算法的計算復雜度是多少?什麽是好的聚類算法?如何決定壹個集群的聚合數?
77.妳知道統計學或計算科學中使用的“經驗法則”嗎?或者在商業分析中。
以上問題在面試數據分析師的求職者中是非常容易遇到的,而且有些涉及到專業問題,所以妳壹定要在面試前做好充分的準備!