ETL 流程求推荐

358 天前

iv8d

目前公司使用前置机部署的 kettle 抽取用户数据为标准模型格式，经过业务系统校验后，将校验成功的数据转存入数仓中。目前只用了 kettle ，但是部署的前置机很多，每个库每个项目都需要部署一台前置机进行采集，而且无法监控采集结果，服务停了都不知道，导致数据断层严重。校验系统需要配置字段校验规则。

目前主流 ETL 流程大概什么样子，有相应工具推荐吗，对多节点可能没有要求，这块不太清楚具体业务逻辑。有没有可以自定义校验规则或转换规则的开源系统。

有相关运维经验的麻烦给大概说说，尽量开源的，不尽感激！

目前听过的 flinkCDC ，airflow+dbt ，海豚调度，kettle 等。主语言 java ，哪个更适合以上业务呢。

2046 次点击

所在节点

程序员

12 条回复

tuutoo

358 天前

不懂为什么每个都要部署一下？一台机器去采集所有的信息为什么不行，采集的目标是文件还是什么？

brant2ai

358 天前

看你们项目程度，换成 DataX ，配个 XXjob 就基本上满足了。告警的话可能再找找看

SilenceLL

358 天前

kettle 便利就行了吧，我们有 200+数据库实例，每个实例里面有 6000-13000schema ，目前就是遍历的，如果追求效率可以多加机器，分好段。

suuuch

358 天前

这里面有多个问题：
1. 前置机数量多的问题，这个我理解是网络限制上问题，kettle 无法直接需要穿透到不同的网络中拿数据，需要前置机器去读取数据。不构成替换 kettle 的必要条件。解决方案的话，应该是从网络上下手。
2. 监控采集结果无法监控，服务停了不知道，这个应该是使用上有问题，kettle 我记得是有报警工具。而且 kettle 里面的日志也是很完整的。我不确定为啥无法监控。
3. 数据断层，配置字段校验规则。大部分 ETL 工具都做不到这个，这个模块叫做数据质量。有单独的工具，个人经验里面来说，这个自己定制比较靠谱。

Ambition95

358 天前

全部抽回 hive ，在 hive 中跑批清洗

SbloodyS

358 天前

现在主流的是 ELT ，先抽到数仓后再清洗

mylovesaber

358 天前

我们有业务使用 kettle ，现在已经纯代码重构与其协作的组件以期完全替代 kettle 了，pentaho server 太容易崩了，kettle 的拖拉拽对于老板或领导而言只是满足了低代码平台降低成本的纸面需求，但实际对于开发人员而言，很多组件就是黑盒，官方文档都有不少解释不完善。

CloudSen

357 天前

海豚调度吧，纯 Java ，代码也不难，二开容易

iv8d

346 天前

@tuutoo 前置机用于针对性数据汇总，比如给定字典映射，后续把前置机采集数据再汇总一次。采集的目标 excel ，数据库都可以。

iv8d

346 天前

@SbloodyS 来源多种多样，数据质量参差不齐，具体要怎么控制呢

iv8d

346 天前

@Ambition95
@CloudSen
有没有示例，或大概的描述下，谢谢

iv8d

340 天前

@SbloodyS 清洗后放到新的库里？还是在当前库清理掉不符合要求的

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1052508

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.