新系统做大数据解析是否需要上 hadoop

1 天前
 dimingxuan

求助,公司新建一个系统,几十亿条数据,需要业务人员能写一些简单的规则做一些数据离线筛查和判断,每天新增数据几万条。数据现在都在 MySQL 做的数仓。

规则编写想用 drools ,现在遇到了数据读取大的问题,需不需要上 hadoop 全家桶?还是简单一点,spark➕HDFS 、Hive➕drools 。对大数据了解不多,请大大们提提建议

2156 次点击
所在节点    数据库
29 条回复
kk2syc
1 天前
怎么简单怎么来,解决问题最重要,一切为了业务。
不然就是这个流程:
写方案->做调研->得结论->报领导->开会议->扯预算->被优化
guo4224
1 天前
几十亿看看 es 就行了吧
includewins0ck2h
1 天前
duckdb 感觉轻轻松松
dododada
1 天前
clickhouse ,只要更新不大没什么问题,hadoop 有点重
colincat
1 天前
drois 轻轻松松
springz
1 天前
这么一点点数据,duckdb 还没热身。或者存成 Parquet 文件,爱用啥用啥。
springz
1 天前
看自己情况,公司资源丰富的话夸大一点,多争取点资源练手也行。不过建议不要上 hadoop 的船,淘汰了的玩意。
superchijinpeng
1 天前
大数据已死
lambdaq
1 天前
看你是求快速解决问题,还是扩大团队编制

如果求快现在 10 亿量级单机轻松跑

但是单机肯定不可能给你配几十条人的大数据团队。
ptaooo
23 小时 59 分钟前
不建议 hadoop ,太重了,维护成本也不低
masterclock
23 小时 53 分钟前
才这么点数据,上个毛线 hadoop
leeg810312
23 小时 50 分钟前
小团队直接用 doris 或 clickhouse 好了,几台机器做集群。Spark 现在没有可用的开源集成套件,CDH 早就不更新不提供支持了,自己搭建得有人自己会维护。
CoderGeek
23 小时 49 分钟前
clickhouse
yb2313
23 小时 46 分钟前
我推荐 clickhouse, 部署简单文档完善, 对比竞品非常清爽
min
23 小时 36 分钟前
单机 duckdb ,分布式用 doris 系即可
tabris17
23 小时 34 分钟前
clickhouse+1

甚至 postgresql 都可以
yb2313
23 小时 30 分钟前
@tabris17 那我用 clickhouse 里面建一个 pg 引擎表岂不是两手都抓?
Grand
23 小时 29 分钟前
离线分析随便玩吧,感觉不重就行
cando
23 小时 25 分钟前
StarRocks
bronyakaka
22 小时 36 分钟前
1 、如果不需要模糊搜索,上 clickhouse ,适合各种分析统计
2 、如果需要搜索,上 ES ,其实也支持分析统计,不过性能稍弱
3 、单机的话,这俩部署都比较简单。几十亿数据单机足够
4 、如果觉得上面俩还是太重,试试 duckDB ,10 亿级问题不大

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1143628

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX