1,寫SQL:壹般來說,很多入職壹兩年的大數據工程師的第壹份工作是寫SQL;
2.為集群搭建大數據環境(壹般公司招聘大數據工程師的環境現在已經搭建好了,公司內部會有現成的大數據渠道);
3.維護大數據的方式(這應該是每個大數據工程師都做過的工作,或多或少會承擔“運維”的工作);
4、數據移動(壹些公司需要將數據從Oracle和MySQL等傳統數據庫移動到大數據集群,這是壹項復雜的工作);
5、使用搬家(有些公司需要使用傳統數據庫Oracle、MySQL。
等待數據庫存儲過程程序或SQL腳本移動到大數據路徑,這個過程也是壹個非常繁瑣的工作,高度重復和淩亂)
6、數據收集(收集日誌數據、文件數據、接口數據,這涉及到各種格式的轉換,壹般使用Flume和Logstash)
7、數據處理
7.1,離線數據處理(這個壹般是寫SQL然後扔進Hive,其實和第壹點有點重復)
7.2、實時數據處理(這涉及到audio forces、Kafka、Spark、Flink這些組件,壹般將數據通過Flume收集並發送到Kafka,然後。
Spark消耗Kafka的數據進行處理)
8、數據可視化(我們公司使用Spring Boot連接後臺數據和前端,前端使用自己的magic change echarts)。
9、大數據路徑開發(面向Java,關於將開源組件集成到壹個可用的大數據路徑中,這在各種高難度的PaaS路徑中很常見)。
10
、中臺的數據開發(中臺需要支持訪問各種數據源,清洗各種數據源並將其轉換為可用數據,然後根據原始數據建立壹個寬的表層。通常,為了節省開發成本和服務器資源,業務數據按照寬表層進行查詢)
11,建立數據倉庫(這裏數據倉庫的建立不是指Hive,Hive是某個東西建立幾個倉庫,而幾個倉庫的建立壹般分為三層:ODS、DW和DM。
層,其中數據倉庫是最重要的,它可以分為DWD,數據倉庫和DWS。這壹層只是壹個邏輯概念,類似於根據層次差異分離表名的操作。分層的目的是防止在使用開發數據時直接訪問底層數據,這會減少資源。請註意,減少資源支出就是減少。
內存和CPU
分層後磁盤占用會大大增加,所以沒有連接。分層可以使數據表的邏輯更加清晰,便於進壹步開發和操作。假設分層做得不好,會導致邏輯混亂,新員工很難接手業務,在公司的運營成本中艱難跋涉。還有幾個離線實時構建的倉庫。)
以上就是邊肖今天為大家送上的關於“大數據工程師在日常工作中做些什麽?”希望對妳有幫助。想了解更多關於大數據工程師所需能力的信息,並關註邊肖的持續更新。