新系统做大数据解析是否需要上 hadoop

18 小时 35 分钟前
 dimingxuan

求助,公司新建一个系统,几十亿条数据,需要业务人员能写一些简单的规则做一些数据离线筛查和判断,每天新增数据几万条。数据现在都在 MySQL 做的数仓。

规则编写想用 drools ,现在遇到了数据读取大的问题,需不需要上 hadoop 全家桶?还是简单一点,spark➕HDFS 、Hive➕drools 。对大数据了解不多,请大大们提提建议

2040 次点击
所在节点    数据库
29 条回复
kk2syc
18 小时 6 分钟前
怎么简单怎么来,解决问题最重要,一切为了业务。
不然就是这个流程:
写方案->做调研->得结论->报领导->开会议->扯预算->被优化
guo4224
16 小时 38 分钟前
几十亿看看 es 就行了吧
includewins0ck2h
16 小时 36 分钟前
duckdb 感觉轻轻松松
dododada
16 小时 23 分钟前
clickhouse ,只要更新不大没什么问题,hadoop 有点重
colincat
16 小时 23 分钟前
drois 轻轻松松
springz
16 小时 22 分钟前
这么一点点数据,duckdb 还没热身。或者存成 Parquet 文件,爱用啥用啥。
springz
16 小时 20 分钟前
看自己情况,公司资源丰富的话夸大一点,多争取点资源练手也行。不过建议不要上 hadoop 的船,淘汰了的玩意。
superchijinpeng
16 小时 16 分钟前
大数据已死
lambdaq
16 小时 14 分钟前
看你是求快速解决问题,还是扩大团队编制

如果求快现在 10 亿量级单机轻松跑

但是单机肯定不可能给你配几十条人的大数据团队。
ptaooo
16 小时 5 分钟前
不建议 hadoop ,太重了,维护成本也不低
masterclock
15 小时 59 分钟前
才这么点数据,上个毛线 hadoop
leeg810312
15 小时 56 分钟前
小团队直接用 doris 或 clickhouse 好了,几台机器做集群。Spark 现在没有可用的开源集成套件,CDH 早就不更新不提供支持了,自己搭建得有人自己会维护。
CoderGeek
15 小时 55 分钟前
clickhouse
yb2313
15 小时 52 分钟前
我推荐 clickhouse, 部署简单文档完善, 对比竞品非常清爽
min
15 小时 42 分钟前
单机 duckdb ,分布式用 doris 系即可
tabris17
15 小时 40 分钟前
clickhouse+1

甚至 postgresql 都可以
yb2313
15 小时 36 分钟前
@tabris17 那我用 clickhouse 里面建一个 pg 引擎表岂不是两手都抓?
Grand
15 小时 36 分钟前
离线分析随便玩吧,感觉不重就行
cando
15 小时 31 分钟前
StarRocks
bronyakaka
14 小时 43 分钟前
1 、如果不需要模糊搜索,上 clickhouse ,适合各种分析统计
2 、如果需要搜索,上 ES ,其实也支持分析统计,不过性能稍弱
3 、单机的话,这俩部署都比较简单。几十亿数据单机足够
4 、如果觉得上面俩还是太重,试试 duckDB ,10 亿级问题不大

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1143628

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX