關於面試數據分析師的常見問題

關於面試數據分析師的常見問題。數據分析師是指專門收集、整理、分析不同行業的行業數據，並根據數據做出行業研究、評估和預測的專業人員。那麽求職者在應聘數據分析師這個職位時會面臨哪些面試問題呢？

1.說兩個與分析或計算機科學相關的項目？妳如何衡量結果？

2.如何讓壹個網絡爬蟲更快，提取更好的信息，更好的匯總數據，得到壹個幹凈的數據庫？

3.有什麽推廣價值，關鍵性能指標，穩健性，模型擬合，實驗設計，2/8原理？

4.什麽是協同過濾，n-grams，map reduce和余弦距離？

5.點擊流數據應該實時處理嗎？為什麽？哪個部分應該實時處理？

6.如何設計解決抄襲的方案？

7.如何驗證壹個個人支付賬戶被多人使用？

8.什麽是概率合並(又名模糊合並)？使用SQL處理還是其他語言方便？您會選擇使用哪種語言來處理半結構化數據？

9.妳覺得好數據和好模型哪個更好？同時，妳如何定義“好”？有沒有適用於所有情況的通用模型？妳不知道有些模型不是那麽好定義的嗎？

10，妳最喜歡的編程語言是什麽？為什麽？

妳如何處理缺乏數據的問題？有什麽加工工藝推薦？

12.大數據的詛咒是什麽？

13.告訴妳最喜歡統計軟件的三個理由。

14，SAS，R，Python，Perl語言有什麽區別？

15.妳喜歡TD數據庫的哪些特性？

16，有沒有參與過數據庫和數據模型的設計？

17.有沒有參與過儀表盤的設計和指標的選取？妳對商業智能和報告工具有什麽看法？

18，請舉例說明mapreduce的工作原理？在什麽應用場景下效果好？雲的安全問題是什麽？

19.妳打算怎麽發1萬營銷活動郵件？妳如何優化交付？妳如何優化反應速度？能不能把這兩個優化分開？

20.如果幾個客戶查詢ORACLE數據庫效率低。為什麽？怎麽做才能把速度提高10倍以上，更好地處理大量輸出？

21.如何將非結構化數據轉化為結構化數據？真的有必要做這樣的改造嗎？將數據保存為平面文本文件比保存為關系數據庫更好嗎？

22.什麽是哈希表碰撞攻擊？如何避免？多久發生壹次？

23.如何判斷mapreduce進程負載均衡性好？什麽是負載平衡？

24.妳處理過白名單嗎？主要規則？(在欺詐或爬行檢查的情況下)

25.妳覺得100個小哈希表好還是壹個大哈希表好，從內部還是運行速度來說？數據庫分析的評價？

26.為什麽樸素貝葉斯很差？如何用樸素貝葉斯改進爬蟲檢測算法？

27.普通線性回歸模型有哪些缺陷？妳知道其他回歸模型嗎？

28.什麽是明星模特？什麽是查找表？

29.可以用excel建立邏輯回歸模型嗎？我該如何解釋建立過程？

30.在SQL，Perl，C++，Python等的編程過程中。，是否對相關代碼或算法進行了優化以提高速度？怎麽樣，多少錢？

31，5天準確率90%的解還是10天準確率10%的解？要看什麽內容？

32.定義:QA(質量保證)，六適馬和實驗設計。可以舉壹個好的和不好的實驗設計的例子嗎？

33.什麽是敏感性分析？靈敏度越低(即魯棒性越好)和預測能力越低好還是正好相反？妳如何使用交叉驗證？如何看待在數據集中插入噪聲數據來測試模型的靈敏度這壹想法？

34.妳覺得不到50片葉子的決策樹比大的好嗎？為什麽？

35.精算是統計學的壹個分支嗎？如果沒有，為什麽？

36.給出壹個不符合高斯分布和對數正態分布的數據案例。給出壹個分布非常混亂的數值例子。

37.如何建議壹個非參數置信區間？

38.妳怎麽證明妳帶來的算法改進和不做任何改動相比真的有效？妳熟悉A/B考試嗎？

39.為什麽均方差不是衡量模型的好指標？妳建議用哪個指標來代替？

40.對於邏輯回歸、決策樹和神經網絡。15年來這些技術有哪些重大改進？

41.除了主成分分析，妳還使用其他數據降維技術嗎？妳想怎麽逐漸回歸？妳熟悉的逐步回歸技術有哪些？什麽時候完整數據比降維數據或樣本更好？

42.如何創建關鍵詞分類？

43.您是否熟悉極值理論、蒙特卡羅邏輯或其他數理統計方法來正確評估稀疏事件的概率？

44.什麽是歸因分析？如何識別歸因和相關系數？比如說。

45.如何定義和衡量壹個指標的預測能力？

46.如何找到欺詐檢測評分技術的最佳規則集？妳是如何處理規則冗余、規則發現及其本質的？壹個規則集的近似解可行嗎？如何找到可行的近似方案？妳如何決定這個解決方案足夠好，從而停止尋找另壹個更好的解決方案？

47.什麽是概念證明？

48.什麽是僵屍網絡？怎麽考？

49.妳用過API接口嗎？什麽樣的API？是谷歌還是亞馬遜還是軟件即時服務？

50.什麽時候自己編碼比用數據科學家開發的軟件包更好？

51.可視化使用什麽工具？妳如何評價《畫皮》中的Tableau？r？SAS？有效地在壹張圖中顯示五維？

52.是假陽性還是假陰性？

53.主要和什麽樣的客戶合作:內部，外部，銷售部門/財務部門/市場部/IT部門？妳有咨詢經驗嗎？與供應商打交道，包括供應商的選擇和測試。

54.妳熟悉軟件生命周期嗎？以及IT項目的生命周期，從收入需求到項目維護？

55.cron任務是什麽？

56.妳是單身編碼員嗎？還是開發商？還是設計師？

57.是什麽讓壹個圖形具有誤導性，難以閱讀或解釋？壹個有用的圖形功能？

58.妳熟悉價格優化、價格彈性、庫存管理和競爭情報嗎？分別給出案例。

59.Zillow的算法是如何工作的？

60.如何查不良目的的虛假評論或虛假FB賬號？

61.如何創建壹個新的匿名數字賬戶？

62.有沒有想過自己創業？是什麽樣的想法？

63.妳覺得賬號和密碼輸入的登錄框會消失嗎？會被什麽取代？

64.妳用過時間序列模型嗎？時間延遲的相關性？相關地圖？光譜分析？信號處理與濾波技術？在什麽樣的場景裏？

65.妳最佩服哪門數據科學？從哪裏開始？

66.妳是如何對數據科學產生興趣的？

67.妳認為未來20年最好的五種預測方法是什麽？

68.什麽是推薦引擎？它是如何工作的？

69.什麽是精密測試？模擬如何以及何時可以幫助我們不使用精確測試？

70.妳認為怎樣才能成為壹名優秀的數據科學家？

71.妳覺得數據科學家是藝術家還是科學家？

72.如何立即知道壹篇文章(比如報紙)中發表的統計數據是錯誤的，或者是用來支持作者的論點，而不僅僅是列舉關於某件事的信息？比如，如何看待政府每月定期在媒體上發布的失業統計數據？如何才能讓這些數據更加準確？

73.舉幾個數據科學的“最佳實踐案例”。

74.什麽是效率曲線？他們的缺點是什麽，妳是如何克服的？

75.妳處理過的最大數據量是多少？妳是怎麽對付他們的？處理的結果。

76.壹個好的快速聚類算法的計算復雜度是多少？什麽是好的聚類算法？如何決定壹個集群的聚合數？

77.妳知道統計學或計算科學中使用的“經驗法則”嗎？或者在商業分析中。

以上問題在面試數據分析師的求職者中是非常容易遇到的，而且有些涉及到專業問題，所以妳壹定要在面試前做好充分的準備！