V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dimingxuan
V2EX  ›  数据库

新系统做大数据解析是否需要上 hadoop

  •  
  •   dimingxuan · 55 天前 via Android · 3171 次点击
    这是一个创建于 55 天前的主题,其中的信息可能已经有所发展或是发生改变。

    求助,公司新建一个系统,几十亿条数据,需要业务人员能写一些简单的规则做一些数据离线筛查和判断,每天新增数据几万条。数据现在都在 MySQL 做的数仓。

    规则编写想用 drools ,现在遇到了数据读取大的问题,需不需要上 hadoop 全家桶?还是简单一点,spark➕HDFS 、Hive➕drools 。对大数据了解不多,请大大们提提建议

    30 条回复    2025-08-22 15:19:19 +08:00
    kk2syc
        1
    kk2syc  
       55 天前   ❤️ 1
    怎么简单怎么来,解决问题最重要,一切为了业务。
    不然就是这个流程:
    写方案->做调研->得结论->报领导->开会议->扯预算->被优化
    guo4224
        2
    guo4224  
       55 天前 via iPhone   ❤️ 1
    几十亿看看 es 就行了吧
    includewins0ck2h
        3
    includewins0ck2h  
       55 天前   ❤️ 1
    duckdb 感觉轻轻松松
    dododada
        4
    dododada  
       55 天前   ❤️ 1
    clickhouse ,只要更新不大没什么问题,hadoop 有点重
    colincat
        5
    colincat  
       55 天前   ❤️ 1
    drois 轻轻松松
    springz
        6
    springz  
       55 天前   ❤️ 1
    这么一点点数据,duckdb 还没热身。或者存成 Parquet 文件,爱用啥用啥。
    springz
        7
    springz  
       55 天前   ❤️ 1
    看自己情况,公司资源丰富的话夸大一点,多争取点资源练手也行。不过建议不要上 hadoop 的船,淘汰了的玩意。
    superchijinpeng
        8
    superchijinpeng  
       55 天前   ❤️ 1
    大数据已死
    lambdaq
        9
    lambdaq  
       55 天前   ❤️ 1
    看你是求快速解决问题,还是扩大团队编制

    如果求快现在 10 亿量级单机轻松跑

    但是单机肯定不可能给你配几十条人的大数据团队。
    ptaooo
        10
    ptaooo  
       55 天前   ❤️ 1
    不建议 hadoop ,太重了,维护成本也不低
    masterclock
        11
    masterclock  
       55 天前   ❤️ 1
    才这么点数据,上个毛线 hadoop
    leeg810312
        12
    leeg810312  
       55 天前   ❤️ 1
    小团队直接用 doris 或 clickhouse 好了,几台机器做集群。Spark 现在没有可用的开源集成套件,CDH 早就不更新不提供支持了,自己搭建得有人自己会维护。
    CoderGeek
        13
    CoderGeek  
       55 天前   ❤️ 1
    clickhouse
    yb2313
        14
    yb2313  
       55 天前   ❤️ 1
    我推荐 clickhouse, 部署简单文档完善, 对比竞品非常清爽
    min
        15
    min  
       55 天前   ❤️ 1
    单机 duckdb ,分布式用 doris 系即可
    tabris17
        16
    tabris17  
       55 天前   ❤️ 2
    clickhouse+1

    甚至 postgresql 都可以
    yb2313
        17
    yb2313  
       55 天前   ❤️ 1
    @tabris17 那我用 clickhouse 里面建一个 pg 引擎表岂不是两手都抓?
    Grand
        18
    Grand  
       55 天前   ❤️ 1
    离线分析随便玩吧,感觉不重就行
    cando
        19
    cando  
       55 天前   ❤️ 1
    StarRocks
    bronyakaka
        20
    bronyakaka  
       55 天前   ❤️ 1
    1 、如果不需要模糊搜索,上 clickhouse ,适合各种分析统计
    2 、如果需要搜索,上 ES ,其实也支持分析统计,不过性能稍弱
    3 、单机的话,这俩部署都比较简单。几十亿数据单机足够
    4 、如果觉得上面俩还是太重,试试 duckDB ,10 亿级问题不大
    Richared
        21
    Richared  
       55 天前 via iPhone   ❤️ 1
    你这体量上啥 hadoop 。
    godguoht1573
        22
    godguoht1573  
       55 天前   ❤️ 1
    StarRocks+1
    zsk425
        23
    zsk425  
       55 天前 via Android   ❤️ 1
    可以考虑直接以表的形式存储在 S3 上,用 Athena 查就行,毕竟只要离线,这应该是最省钱方案之一了
    springz
        24
    springz  
       55 天前   ❤️ 1
    #9 说的才是真理,其实要看是要解决问题还是切一块资源。
    assiadamo
        25
    assiadamo  
       55 天前   ❤️ 1
    之前看 duckdb 的文章在 2012 年的 4 核 i7/16G 内存的 macbook 上跑数十亿查询行数据的查询没问题
    OliverDD
        26
    OliverDD  
       55 天前   ❤️ 1
    单机 duckdb
    samwellwang0
        27
    samwellwang0  
       55 天前   ❤️ 1
    pg 或者 es 就行
    xuelang
        28
    xuelang  
       55 天前   ❤️ 1
    推荐 clickhouse ,真的快~
    levelworm
        29
    levelworm  
       55 天前 via Android   ❤️ 1
    找数仓就行了,据说 clickhouse 不错。
    linhrdom
        30
    linhrdom  
       10 天前
    数据不需要加工开发,不需要 ETL ,不考虑 join 纬度表,就用 clickhouse ;
    有 ETL 加工,要么选择 Spark 或者用云器
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1482 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 16:41 · PVG 00:41 · LAX 09:41 · JFK 12:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.