V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
wqkenqing
V2EX  ›  程序员

[求助] 时下业内的大数据平台在 ubuntu 环境的部署方案有哪些?

  •  
  •   wqkenqing · 17 天前 · 1217 次点击

    几年前转小公司做大数据岗,当时 cdh+cm 开源转闭源。一套 6.3.2 用到现在。最近公司让调研新的方案,而操作系统由 centos7l 转向了 ubuntu22 。目前我在网上查到的 ubuntu 方案都很老,大都是 ubuntu18.想向现在的业内大佬了解下,你们是否有更新的 ubuntu 部署方案

    14 条回复    2025-06-20 16:30:22 +08:00
    wqkenqing
        1
    wqkenqing  
    OP
       17 天前
    补充一个问题,大家现在用到的大数据基础环境一般是怎么部署的。
    moonlight010
        2
    moonlight010  
       16 天前
    早就上云了,k8s 云原生部署啊,任务流程也是 pod 运行
    kangkag0231
        3
    kangkag0231  
       16 天前
    都 k8s 部署,和服务器用什么系统已经无关了。
    moonlight010
        4
    moonlight010  
       16 天前
    1 首先操作系统和选择什么方案并无关系
    2 cdh 是很老的方案了,cdh 是来过来就用,不过各种组件的兼容性已经处理好了
    3 小公司不会用到很多功能,市面上的方案就能满足大多数需求了
    4 要考虑怎么去部署服务,裸机部署倒也可以,如果是小公司的话,但起码是高可用的,最好是上 k8s ,各种大数据组件和服务,还有任务调度,执行组件都在 k8s 里面,这是未来的趋势,各种组件也都在拥抱云原生,比如 spark 和 flink 都有 k8s 部署和运行方案
    moonlight010
        5
    moonlight010  
       16 天前
    1 哪有方案是分 centos 还是 ubuntu 呢?后端部署是不分这个的,感觉你好像对 linux 不太懂(对大数据也不太懂,不是冒犯哈),这个问题很奇怪啊
    2 方案是看你各种组件选用哪个,现在市面上某一环节的组件,就有好几个供选择,甚至十几个供你选
    3 不管你是 centos 还是 ubuntu ,有区别吗?不都是裸机部署,就你的意思而言
    4 部署分好几种方案:裸机,高可用,容器部署,云原生,分别对应单机裸机多服务(不分系统滴老铁),多个裸机高可用 HA ,docker 容器部署应用,k8s 部署应用
    5 推荐使用 k8s ,但前提是你玩得转,大多数会玩 k8s 的不一定懂大数据,更不懂怎么将组件放在云上。会大数据的不懂 k8s ,只会单机多服务 HA 或者多裸机多服务 HA
    6 你的问题让我觉得考虑 k8s 都多余了哈哈哈
    wqkenqing
        6
    wqkenqing  
    OP
       16 天前
    感谢你的详细回复。确实小公司用到的东西很少,更换也不多,所以,这些年也比较固化。裸机部署现在基本上不咋考虑,因为习惯了 cm 这套,感觉再原生搞,很别扭。 我这阵用 ambari+bigtop 中落地了一套相对新些的版本,但这个方案目前对 ubuntu 系统的支持度比较度。 所以,想请问的是 k8s 是直接部署的原生组件吗,还是类似 cdh+cm 的镜像。
    wqkenqing
        7
    wqkenqing  
    OP
       16 天前
    并不会觉得冒犯哈,很是感谢你的回复。我也确实有一些困惑。公司规模太小,确实也如你所说懂 k8s 的,不管大数据这块内容。我之所以会觉得会区分系统还是因为对这块的思维还停留在 cdh+cm 时代,它们当时是分区 el7 和 ubuntu 的系统类型。我最近调研了 ambari+bigtop ,还有国产的 datasophon,它们都不支持 ubuntu22 。所以我才有此番问题。
    moonlight010
        8
    moonlight010  
       16 天前
    1 你好,确实,选择方案一定要根据企业的情况而定,不是什么高大上就用什么方案的,CDH+CM 那套是最快的方案,业务才是最重要的,后面 CDH 不是收费了吗,很多人投向开源了
    2 所以我一开始接触大数据就是开源的大数据组件,然后自己看文档去挨个部署,使用的是多裸机多服务,后面就尝试把服务全部 docker 容器化了,21 年就将服务放在 k8s 上了
    3 k8s 是直接部署原生组件。CDH+CM 是那种类似大数据部署工具,就是你不用管运维了,基本上要啥就安装就行,这种方案我知道很快,但是其实很落后,因为这样对组件的定制服务很麻烦,而且还有就是我可能不想用 CDH 提供的东西,想用体系之外的东西。
    4 你说的 Ambari+Bigtop 我大概之前有了解过,但是这两个还是基于裸机的服务(我以为),所以我后面就没接触了,本质上是和 CDH+CM 是一样的,不过是开源免费的。可能这两个有面向云原生的东西,比如打包成镜像,或者 k8s 的资源编排方案,但是我没有了解过哈(不装逼,这一块没了解过)
    moonlight010
        9
    moonlight010  
       16 天前
    看到你上面的回复,如果用惯了 CM 那一套的话,换成 Ambari+Bigtop 应该没问题,而且也很舒服,他们应该是支持 ubuntu22 的吧,你试着部署下才对
    另外,还没有类似这种大数据部署+管理的开源方案呢?应该是有的,但是功能大同小异,和 Ambari 差不多,Apache 下开源项目很多的,另外要考虑你使用的方案是否现在还处于积极开发的状态,可能好多都不怎么维护了,比如 https://github.com/apache/ambari 现在起码还在更新,有些项目可能就处于长期不维护状态了
    未来主流还是云原生的方案的,你有时间可以在业余多了解下这方面的东西,未雨绸缪,云原生部署+云原生监控+云原生执行计算任务,然后可能计算任务也会面向 serverless 或者 faas 方向发展,而不是传统的写 spark 任务或者 flink 任务,或者执行 spark/flink SQL 了,这一块也即将被淘汰(不是说没有作用,这一块挺好,但是未来的方案是上下游分开,低代码,低门槛),还有就是大数据其实是赋能的(数据支持),并不是主业务,所以需要和后端开发配合,或者和 AI 配合,提供数据收集、清洗,标注等功能的,供给 AI 训练学习,这一块整合
    另外,国内有一些小巨头公司是专门做大数据的,比如滴普科技,星环科技,你可以去他们官网看看,了解他们的技术方向,大概就知道了
    wqkenqing
        10
    wqkenqing  
    OP
       16 天前
    好的,好的,非常感谢你的分享,收获多多
    tulumu
        11
    tulumu  
       16 天前
    建议继续用 cdh + cm + centos, 平台应用服务是关键, 改造成 既可以提交 yarn 也可以提交 k8s 不就行了
    wqkenqing
        12
    wqkenqing  
    OP
       16 天前
    我也是在调研中,因为我们是一个信息化服务集成商,我们业务性质是以项目的形式给业主交付。所以,我也是在模排这些情况。我们定好一个版本或方案,就会尽量图稳,较长时间不动它。
    wqkenqing
        13
    wqkenqing  
    OP
       16 天前
    如果 centos ,我现在更倾向通过 ambari+bigtop 。因为 cdh 闭源后 6.3.2 确实有些太老了。我后续把 elasticsearch 与 flink 集成进去了,但现在的 streampark 、ds 、clickhouse 这些我们日常也用得很多。
    defunct9
        14
    defunct9  
       16 天前
    bigdata 和 k8s 不太相融,通常都是裸金属,穷的也是基于 openstack 造 kvm 给 emr 用。只有一条上升的路,就是 ambari 。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5352 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 06:53 · PVG 14:53 · LAX 23:53 · JFK 02:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.