V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
gkair
V2EX  ›  程序员

咨询一个 CentOS 系统网络请求延迟异常变大的问题

  •  
  •   gkair · 2024-05-09 11:27:22 +08:00 · 2151 次点击
    这是一个创建于 404 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问题场景:

    我们在项目上放置了一个工控机,上面部署了一个 Java 服务,用于接收项目上 200 个左右摄像头的 http 请求信息,然后 Java 服务接手以后,进行相应处理,最后通过 tcp 发送到我们的云端系统。每个摄像头的请求频率为三十秒一次。tcp 消息发送为五秒一次。

    问题描述:

    部署初期没有问题,运行三四个月后,偶尔会出现摄像头推送到工控机的 http 请求延迟非常大,甚至有些会达到 http 请求后过了五分钟,Java 服务中才打印出相应日志。目前,这个问题出现的频率越来越高。并且伴随着这个问题,还发现了一些其他问题。如:

    1. 工控机重启时间非常长,大概 7.8 分钟,并且重启后上述问题无法解决;
    2. ssh 连接等待时间非常长,1.2 分钟;
    3. 手动执行 sudo reboot 命令无效,只能断电重启;
    4. 局域网内,偶尔会 ping 不到该工控机;
    5. yum 命令无法使用,见图;

    请问有没有对 linux 比较熟悉的大牛能指点一下,或者能提供一下排查思路,万分感谢!

    其他工控机相关

    • 工控机系统:CentOS Linux release 7.9.2009 (Core)
    • 工控机部署服务:Java 服务一个,redis ,frpc ,nginx
    • 工控机资源占用:见图 1715224821449.png

    1715224807620.png

    29 条回复    2024-05-09 20:27:53 +08:00
    Mianmiss
        1
    Mianmiss  
       2024-05-09 13:02:14 +08:00
    1 、http 请求延迟时间有特征吗? 比如在每天的几点左右,延迟时间段大概多久?
    2 、机器的网络是否正常,网线是否有问题,WiFi 是否稳定。
    3 、工控机资源图 是出现异常情况的吗? 感觉也不高。

    建议是在异常时间 tcpdump 抓个包看看。
    defunct9
        2
    defunct9  
       2024-05-09 13:31:15 +08:00
    开 ssh ,让我上去看看
    gkair
        3
    gkair  
    OP
       2024-05-09 13:54:00 +08:00
    @defunct9 这个可能不太方便让您上去看。。。。。。
    gkair
        4
    gkair  
    OP
       2024-05-09 13:58:10 +08:00
    @Mianmiss
    1 、目前未发现任何特征,延迟无规律。
    2 、网络正常,网线正常,未使用 wifi 。
    3 、是,这个工控机只有这么几个服务,资源占用其实很低。
    另外,目前的情况是,网络延迟现象较之前变得频繁;但是这个工控机操作的迟钝感一直存在,无法通过重启来缓解。
    defunct9
        5
    defunct9  
       2024-05-09 13:58:13 +08:00
    @gkair 拒绝猜火车,不上去看看,真正的原因天知道是什么
    Kinnice
        6
    Kinnice  
       2024-05-09 14:05:51 +08:00
    ip 冲突,
    pota
        7
    pota  
       2024-05-09 14:08:00 +08:00
    工控机重启时间非常长,大概 7.8 分钟 这条考虑是硬盘问题?
    ruidoBlanco
        8
    ruidoBlanco  
       2024-05-09 14:12:08 +08:00   ❤️ 1
    CPU 内存都没有压力,load average 很低,所以我猜想 IO delay 也应该可以忽略不计。

    那么问题在大概在网络层面了。

    网络而言,需要看的就挺多的。是我的话,首先会看下面这几个地方,然后再缩小范围

    ethtool -S <网卡>. # 网卡丢包,ring buffer ?你这个 irq 不大可能了
    /proc/net/softnet_stat # 第二三列有没有数字很大? netdev_budget 不够?
    netstat -s # tcp exception ,会不会是 socket buffer ? ss -ntmp 怎么说?

    几句话说不清,每次弄起这些来我自己也得再查。

    还有可能就是你有内核报错,网卡驱动有问题啊什么的,看日志就可以发现了。
    hingle
        9
    hingle  
       2024-05-09 14:15:00 +08:00
    1. MAC 地址重启后是否会变
    2. 系统时间是否正常
    Nicklove
        10
    Nicklove  
       2024-05-09 14:20:22 +08:00
    @defunct9 ssh 老哥
    gkair
        11
    gkair  
    OP
       2024-05-09 14:48:54 +08:00
    @ruidoBlanco 首先,感谢这位老哥提出的思路。但是,我们俩软件开发实在是搞不了这种专业性很强的问题排查,我们公司又没有这种专业的底层运维人员,我只能说先尝试一下吧。不行的话也不费力气了,直接换个新的工控机跑跑再看看吧。
    gkair
        12
    gkair  
    OP
       2024-05-09 14:51:40 +08:00
    @Kinnice ip 写死,并且路由器上面做了限制,不会冲突。 #6
    @pota 硬盘现在无法确认有无问题,我想办法确认下吧。但是感觉有问题的可能性不太大,毕竟才跑了半年。 #7
    @hingle 1 、mac 地址固定。2 、系统时间正常。#9
    crc8
        13
    crc8  
       2024-05-09 14:54:05 +08:00
    换工控机
    Immunize
        14
    Immunize  
       2024-05-09 15:02:49 +08:00
    reboot 都不响应,机器坏了吧....dmesg 有错误信息么,跑一跑 MEMTEST 看看内存是不是有问题?
    sinx003
        15
    sinx003  
       2024-05-09 15:06:25 +08:00
    我们最近有个类似的问题,也是一开始运行咩有问题,最近才出现.最后排查了好久,发现是硬盘速度太低导致的,我想你接受这么多的数据,硬盘读写的数据少不了,建议检查一下硬盘速度
    Richared
        16
    Richared  
       2024-05-09 15:11:56 +08:00   ❤️ 1
    朋友之前加盟在线教育,后来总部倒闭了,他从别的渠道搞来课程,我们几个发小帮忙搭建了一套服务,服务器部署在教室,后来莫名其妙网络延迟,卡顿,接口超时。ssh 进不去,因为我们不在现场,看不到机器的情况,每次都是重启解决,后来去了他那才知道,这哥们给服务器锁在了一个箱子里。运行一段时间过热 cpu 降频。。。
    dode
        17
    dode  
       2024-05-09 15:19:46 +08:00
    这些摄像头划分 vlan 隔离了吗
    dode
        18
    dode  
       2024-05-09 15:22:07 +08:00
    感觉工控机设备有问题吗,硬盘状态,网络占用,USB 接口
    a0xbd4CX0DHC1EuT
        19
    a0xbd4CX0DHC1EuT  
       2024-05-09 15:26:55 +08:00
    @gkair ssh 连接等待时间非常长,1.2 分钟,这个我遇到过,/etc/ssh/sshd_config 改成 UseDNS no GSSAPIAuthentication yes ,然后 systemctl restart sshd.service 重启。
    Mandy0
        20
    Mandy0  
       2024-05-09 15:34:37 +08:00
    网卡芯片是什么型号,某些 Intel 在 Centos 上兼容会有问题,内核版本太老导致的
    xiaoranj
        21
    xiaoranj  
       2024-05-09 15:44:25 +08:00
    如果排除掉网络问题的话,有点像硬盘快坏了或者过热导致的
    gkair
        22
    gkair  
    OP
       2024-05-09 16:05:59 +08:00
    @sinx003 其实我们接受的数据主要在 Java 程序中就处理完成了,完成之后暂存一点统计信息到 redis ,然后就是每隔几秒通过 tcp 发送给业务系统了。基本上没多少磁盘读写。
    gkair
        23
    gkair  
    OP
       2024-05-09 16:20:00 +08:00
    @crc8 已经准备换了,到时候重新刷一下系统。
    @ukec 目前是这样的
    #UseDNS yes 该行目前为注释状态
    GSSAPIAuthentication yes
    @Immunize https://img2.imgtp.com/2024/05/09/3ux2L21U.png 看着好像一堆错误。
    a0xbd4CX0DHC1EuT
        24
    a0xbd4CX0DHC1EuT  
       2024-05-09 16:34:56 +08:00
    @gkair #UseDNS yes 要取消注释并改成 no ,重启 sshd 服务
    hahahahahahahah
        25
    hahahahahahahah  
       2024-05-09 16:40:48 +08:00
    感觉是硬件出问题了
    iloveayu
        26
    iloveayu  
       2024-05-09 16:57:12 +08:00
    综合分析应该是磁盘的问题
    hefish
        27
    hefish  
       2024-05-09 17:40:30 +08:00
    别猜了,硬件问题, 换新之后故障消除。
    stcQ2G13k9yxep40
        28
    stcQ2G13k9yxep40  
       2024-05-09 17:45:40 +08:00
    free -h ,top 看下,大概率是 CPU 资源消耗殆尽了。我遇到过好几次类似的情况,ssh 连接非常非常慢,经常断,有时候还会报错 fork:retry:Resource temporarily unavailable ,基本上系统资源不足造成的。硬重启以后,问题解决。
    gordon96
        29
    gordon96  
       2024-05-09 20:27:53 +08:00
    ssh 慢可能 dns 问题,我记着之前遇到过类似
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3242 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 11:23 · PVG 19:23 · LAX 04:23 · JFK 07:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.