當前位置:股票大全官網 - 股票行情 - 海底隧道的簡單使用(以前稱為水滴隧道)

海底隧道的簡單使用(以前稱為水滴隧道)

將hive中多個表的數據同步到clickhouse提供實時查詢,平均每個表有2億條記錄。對同步工具的要求是:首先要能長時間提取數據;其次,您可以定制和控制對clickhouse cluster指定的節點實例的數據提取。作為壹個java開發人員,我自然不想太依賴Hadoop。網上搜了壹下,決定用seatunnel,通過簡單的配置就可以提取數據。

Apache SeaTunnel(孵化)是壹個分布式、高性能、易於擴展、離線和實時數據集成平臺,用於同步和轉換。

官方文件:https://interestinglab.github.io/seatunnel-docs/#/

安裝比較簡單,參考官方文檔即可。

config.conf下面的配置是從hive中提取數據並插入到clickhouse中的配置。數據源是hive的壹個表,由seatunnel插件根據id字段進行分段,插入到clickhouse集群的不同段中。