V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dimingxuan
V2EX  ›  数据库

新系统做大数据解析是否需要上 hadoop

  •  
  •   dimingxuan · 13 小时 13 分钟前 via Android · 1958 次点击

    求助,公司新建一个系统,几十亿条数据,需要业务人员能写一些简单的规则做一些数据离线筛查和判断,每天新增数据几万条。数据现在都在 MySQL 做的数仓。

    规则编写想用 drools ,现在遇到了数据读取大的问题,需不需要上 hadoop 全家桶?还是简单一点,spark➕HDFS 、Hive➕drools 。对大数据了解不多,请大大们提提建议

    28 条回复    2025-07-08 16:17:58 +08:00
    kk2syc
        1
    kk2syc  
       12 小时 44 分钟前   ❤️ 1
    怎么简单怎么来,解决问题最重要,一切为了业务。
    不然就是这个流程:
    写方案->做调研->得结论->报领导->开会议->扯预算->被优化
    guo4224
        2
    guo4224  
       11 小时 16 分钟前 via iPhone   ❤️ 1
    几十亿看看 es 就行了吧
    includewins0ck2h
        3
    includewins0ck2h  
       11 小时 14 分钟前   ❤️ 1
    duckdb 感觉轻轻松松
    dododada
        4
    dododada  
       11 小时 1 分钟前   ❤️ 1
    clickhouse ,只要更新不大没什么问题,hadoop 有点重
    colincat
        5
    colincat  
       11 小时 1 分钟前   ❤️ 1
    drois 轻轻松松
    springz
        6
    springz  
       11 小时 0 分钟前   ❤️ 1
    这么一点点数据,duckdb 还没热身。或者存成 Parquet 文件,爱用啥用啥。
    springz
        7
    springz  
       10 小时 58 分钟前   ❤️ 1
    看自己情况,公司资源丰富的话夸大一点,多争取点资源练手也行。不过建议不要上 hadoop 的船,淘汰了的玩意。
    superchijinpeng
        8
    superchijinpeng  
       10 小时 54 分钟前   ❤️ 1
    大数据已死
    lambdaq
        9
    lambdaq  
       10 小时 52 分钟前   ❤️ 1
    看你是求快速解决问题,还是扩大团队编制

    如果求快现在 10 亿量级单机轻松跑

    但是单机肯定不可能给你配几十条人的大数据团队。
    ptaooo
        10
    ptaooo  
       10 小时 44 分钟前   ❤️ 1
    不建议 hadoop ,太重了,维护成本也不低
    masterclock
        11
    masterclock  
       10 小时 38 分钟前   ❤️ 1
    才这么点数据,上个毛线 hadoop
    leeg810312
        12
    leeg810312  
       10 小时 34 分钟前   ❤️ 1
    小团队直接用 doris 或 clickhouse 好了,几台机器做集群。Spark 现在没有可用的开源集成套件,CDH 早就不更新不提供支持了,自己搭建得有人自己会维护。
    CoderGeek
        13
    CoderGeek  
       10 小时 33 分钟前   ❤️ 1
    clickhouse
    yb2313
        14
    yb2313  
       10 小时 31 分钟前   ❤️ 1
    我推荐 clickhouse, 部署简单文档完善, 对比竞品非常清爽
    min
        15
    min  
       10 小时 21 分钟前   ❤️ 1
    单机 duckdb ,分布式用 doris 系即可
    tabris17
        16
    tabris17  
       10 小时 19 分钟前   ❤️ 2
    clickhouse+1

    甚至 postgresql 都可以
    yb2313
        17
    yb2313  
       10 小时 15 分钟前   ❤️ 1
    @tabris17 那我用 clickhouse 里面建一个 pg 引擎表岂不是两手都抓?
    Grand
        18
    Grand  
       10 小时 14 分钟前   ❤️ 1
    离线分析随便玩吧,感觉不重就行
    cando
        19
    cando  
       10 小时 9 分钟前   ❤️ 1
    StarRocks
    bronyakaka
        20
    bronyakaka  
       9 小时 21 分钟前   ❤️ 1
    1 、如果不需要模糊搜索,上 clickhouse ,适合各种分析统计
    2 、如果需要搜索,上 ES ,其实也支持分析统计,不过性能稍弱
    3 、单机的话,这俩部署都比较简单。几十亿数据单机足够
    4 、如果觉得上面俩还是太重,试试 duckDB ,10 亿级问题不大
    Richared
        21
    Richared  
       9 小时 14 分钟前 via iPhone   ❤️ 1
    你这体量上啥 hadoop 。
    godguoht1573
        22
    godguoht1573  
       9 小时 10 分钟前   ❤️ 1
    StarRocks+1
    zsk425
        23
    zsk425  
       9 小时 5 分钟前 via Android   ❤️ 1
    可以考虑直接以表的形式存储在 S3 上,用 Athena 查就行,毕竟只要离线,这应该是最省钱方案之一了
    springz
        24
    springz  
       8 小时 44 分钟前   ❤️ 1
    #9 说的才是真理,其实要看是要解决问题还是切一块资源。
    assiadamo
        25
    assiadamo  
       8 小时 28 分钟前   ❤️ 1
    之前看 duckdb 的文章在 2012 年的 4 核 i7/16G 内存的 macbook 上跑数十亿查询行数据的查询没问题
    OliverDD
        26
    OliverDD  
       5 小时 13 分钟前
    单机 duckdb
    samwellwang0
        27
    samwellwang0  
       4 小时 17 分钟前
    pg 或者 es 就行
    xuelang
        28
    xuelang  
       4 小时 13 分钟前
    推荐 clickhouse ,真的快~
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2939 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 12:31 · PVG 20:31 · LAX 05:31 · JFK 08:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.