求助,公司新建一个系统,几十亿条数据,需要业务人员能写一些简单的规则做一些数据离线筛查和判断,每天新增数据几万条。数据现在都在 MySQL 做的数仓。
规则编写想用 drools ,现在遇到了数据读取大的问题,需不需要上 hadoop 全家桶?还是简单一点,spark➕HDFS 、Hive➕drools 。对大数据了解不多,请大大们提提建议
![]() |
1
kk2syc 55 天前 ![]() 怎么简单怎么来,解决问题最重要,一切为了业务。
不然就是这个流程: 写方案->做调研->得结论->报领导->开会议->扯预算->被优化 |
2
guo4224 55 天前 via iPhone ![]() 几十亿看看 es 就行了吧
|
3
includewins0ck2h 55 天前 ![]() duckdb 感觉轻轻松松
|
![]() |
4
dododada 55 天前 ![]() clickhouse ,只要更新不大没什么问题,hadoop 有点重
|
![]() |
5
colincat 55 天前 ![]() drois 轻轻松松
|
![]() |
6
springz 55 天前 ![]() 这么一点点数据,duckdb 还没热身。或者存成 Parquet 文件,爱用啥用啥。
|
![]() |
7
springz 55 天前 ![]() 看自己情况,公司资源丰富的话夸大一点,多争取点资源练手也行。不过建议不要上 hadoop 的船,淘汰了的玩意。
|
![]() |
8
superchijinpeng 55 天前 ![]() 大数据已死
|
![]() |
9
lambdaq 55 天前 ![]() 看你是求快速解决问题,还是扩大团队编制
如果求快现在 10 亿量级单机轻松跑 但是单机肯定不可能给你配几十条人的大数据团队。 |
![]() |
10
ptaooo 55 天前 ![]() 不建议 hadoop ,太重了,维护成本也不低
|
![]() |
11
masterclock 55 天前 ![]() 才这么点数据,上个毛线 hadoop
|
12
leeg810312 55 天前 ![]() 小团队直接用 doris 或 clickhouse 好了,几台机器做集群。Spark 现在没有可用的开源集成套件,CDH 早就不更新不提供支持了,自己搭建得有人自己会维护。
|
![]() |
13
CoderGeek 55 天前 ![]() clickhouse
|
![]() |
14
yb2313 55 天前 ![]() 我推荐 clickhouse, 部署简单文档完善, 对比竞品非常清爽
|
![]() |
15
min 55 天前 ![]() 单机 duckdb ,分布式用 doris 系即可
|
![]() |
16
tabris17 55 天前 ![]() clickhouse+1
甚至 postgresql 都可以 |
![]() |
18
Grand 55 天前 ![]() 离线分析随便玩吧,感觉不重就行
|
![]() |
19
cando 55 天前 ![]() StarRocks
|
![]() |
20
bronyakaka 55 天前 ![]() 1 、如果不需要模糊搜索,上 clickhouse ,适合各种分析统计
2 、如果需要搜索,上 ES ,其实也支持分析统计,不过性能稍弱 3 、单机的话,这俩部署都比较简单。几十亿数据单机足够 4 、如果觉得上面俩还是太重,试试 duckDB ,10 亿级问题不大 |
21
Richared 55 天前 via iPhone ![]() 你这体量上啥 hadoop 。
|
![]() |
22
godguoht1573 55 天前 ![]() StarRocks+1
|
![]() |
23
zsk425 55 天前 via Android ![]() 可以考虑直接以表的形式存储在 S3 上,用 Athena 查就行,毕竟只要离线,这应该是最省钱方案之一了
|
![]() |
24
springz 55 天前 ![]() #9 说的才是真理,其实要看是要解决问题还是切一块资源。
|
25
assiadamo 55 天前 ![]() 之前看 duckdb 的文章在 2012 年的 4 核 i7/16G 内存的 macbook 上跑数十亿查询行数据的查询没问题
|
![]() |
26
OliverDD 55 天前 ![]() 单机 duckdb
|
27
samwellwang0 55 天前 ![]() pg 或者 es 就行
|
![]() |
28
xuelang 55 天前 ![]() 推荐 clickhouse ,真的快~
|
![]() |
29
levelworm 55 天前 via Android ![]() 找数仓就行了,据说 clickhouse 不错。
|
![]() |
30
linhrdom 10 天前
数据不需要加工开发,不需要 ETL ,不考虑 join 纬度表,就用 clickhouse ;
有 ETL 加工,要么选择 Spark 或者用云器 |