V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
yuzuke
V2EX  ›  程序员

有个 NVME 盘用了好些年最近老掉盘, smartctl 查的指标咋分析健康状态。

  •  
  •   yuzuke · 5 天前 · 1426 次点击
    === START OF SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED
    
    SMART/Health Information (NVMe Log 0x02)
    Critical Warning:                   0x00
    Temperature:                        48 Celsius
    Available Spare:                    100%
    Available Spare Threshold:          50%
    Percentage Used:                    15%
    Data Units Read:                    1,107,071 [566 GB]
    Data Units Written:                 10,088,868 [5.16 TB]
    Host Read Commands:                 4,631,272
    Host Write Commands:                257,829,708
    Controller Busy Time:               4,255
    Power Cycles:                       124
    Power On Hours:                     446
    Unsafe Shutdowns:                   101
    Media and Data Integrity Errors:    2,472
    Error Information Log Entries:      58
    Warning  Comp. Temperature Time:    239
    Critical Comp. Temperature Time:    157
    Temperature Sensor 1:               48 Celsius
    Temperature Sensor 2:               51 Celsius
    Thermal Temp. 2 Transition Count:   6
    Thermal Temp. 2 Total Time:         13611507
    
    23 条回复    2025-07-02 11:04:39 +08:00
    1vanishedtotally
        1
    1vanishedtotally  
       5 天前
    其实你可以设置主板启动时间+1s,有的时候就是主板启动太快了,硬盘还没睡醒就开机了
    lechain
        2
    lechain  
       5 天前
    为啥写比读大一个数量级?你的电脑是日常开了啥一直写盘的软件吗?
    yuzuke
        3
    yuzuke  
    OP
       5 天前
    @1vanishedtotally 机器从来不关机,就这几个月会出现突然读取不到硬盘了,需要断电重启。
    yuzuke
        4
    yuzuke  
    OP
       5 天前
    @lechain 要说一直在运行的软件,也就每天本地文档增量压缩归档一份到 COS 里面。
    busier
        5
    busier  
       5 天前 via Android
    下次你把 smart 报表贴到 AI 里面 给你分析的妥妥的
    ntedshen
        6
    ntedshen  
       5 天前
    > Percentage Used: 15%
    > Media and Data Integrity Errors: 2,472
    C0reFast
        7
    C0reFast  
       5 天前
    Media and Data Integrity Errors: 2,472
    0E 了,换盘吧。
    wuruxu
        8
    wuruxu  
       5 天前
    是的,扔给 GPT 分析的很全面
    AI 特别适合处理有边界的信息
    qq316107934
        9
    qq316107934  
       5 天前
    445 小时运行 500GB 读 5TB 写入 就坏块了么,这是哪家的 SSD ?
    124 次通电循环里有 101 次非正常关机也是有点惨...
    Cooky
        10
    Cooky  
       5 天前
    Error Information Log Entries
    这个应该是可以看详细日志的
    DesmondCobb
        11
    DesmondCobb  
       5 天前
    > Media and Data Integrity Errors: 2,472

    礼问 OP 是三星的盘吗?前两年三星的部分批次疑似存在缺陷,有大量爆 0E 的情况,我手上两块 980 都碰到了

    ref: https://www.reddit.com/r/buildapc/comments/x82mwe/samsung_ssd_smart_0e_issue/
    HFX3389
        12
    HFX3389  
       5 天前
    > Media and Data Integrity Errors: 2,472
    0E 都上 2000 了赶紧换吧
    JoeJasper
        13
    JoeJasper  
       5 天前
    如果是从来不关机的话,那就得检查下排查电源/系统问题吧,124 次通电 101 非正常断电
    yuzuke
        14
    yuzuke  
    OP
       5 天前
    @DesmondCobb Micron 2200S 镁光的
    yuzuke
        15
    yuzuke  
    OP
       5 天前   ❤️ 1
    @qq316107934 镁光的
    yuzuke
        16
    yuzuke  
    OP
       5 天前
    @Cooky 日志里面没啥信息
    yuzuke
        17
    yuzuke  
    OP
       5 天前
    @wuruxu
    @busier

    PASSED ,AI 让我继续用。
    yuzuke
        18
    yuzuke  
    OP
       5 天前
    @JoeJasper 我看看
    sssxxxyyzz
        19
    sssxxxyyzz  
       5 天前
    Gemini 2.5 Pro 建议你换盘

    好的,我们来详细分析一下这块镁光 2200S 固态硬盘的 S.M.A.R.T. 数据。

    一句话总结:虽然硬盘自检结果为“通过”,但详细数据显示出几个非常严重的问题,表明这块硬盘的可靠性已经严重受损,存在数据丢失的风险。

    正面指标 (The Good)

    Critical Warning: 0x00: 硬盘目前没有触发任何最高级别的紧急警报。

    Available Spare: 100%: 备用块充足。

    Percentage Used: 15%: 硬盘的理论写入寿命消耗了 15%,还剩余 85%。

    Temperature: 48 Celsius: 当前的工作温度是正常的。

    严重问题 (The Bad - Red Flags)

    这块硬盘有三个非常令人担忧的指标,需要您高度重视:

    Media and Data Integrity Errors: 2,472

    这是最严重的问题。 这个数值记录了主控芯片在从闪存读取数据时,发生无法用 ECC (错误检查和纠正)代码修复的错误次数。理想情况下,这个值应该永远是 0 。出现如此高的数值意味着硬盘的闪存单元( NAND Flash )已经出现物理损坏或不稳定,无法可靠地存储数据。这直接威胁到您的数据安全。

    Unsafe Shutdowns: 101

    这个数字非常高。它记录了硬盘在没有接到正常关机指令的情况下被断电的次数。这通常由强制关机、蓝屏、突然断电或系统崩溃引起。

    与仅有 124 次的通电次数( Power Cycles )相比,不安全关机率高达 81% (101 / 124)。这说明设备几乎每次都处于非正常关机的状态,这会严重损害硬盘的文件系统和内部数据映射表,是导致数据损坏和硬盘故障的常见原因。

    Critical Comp. Temperature Time: 157

    这个指标记录了硬盘在“严重过热”状态下运行的总时长,单位是分钟。

    您的硬盘有 157 分钟(约 2.6 小时) 的时间处于严重过热状态。长时间过热会加速闪存单元的老化,甚至对主控芯片造成不可逆的物理损伤。这很可能是导致 Media and Data Integrity Errors 数量巨大的根本原因。

    使用模式分析

    写入量: 在仅 446 个通电小时内,硬盘已经写入了 5.16 TB 的数据。这属于中高强度的写入。

    寿命估算: 根据 5.16 TB 写入消耗了 15% 的寿命,可以估算出该硬盘的总写入寿命( TBW )大约在 35 TB 左右 (5.16 / 0.15 ≈ 34.4)。这是一个非常低的 TBW 数值,表明这可能是一款低耐久度的 QLC 硬盘,或者过热已经严重加速了其寿命损耗。

    结论与建议

    这块硬盘虽然还能工作,但已经是一颗“定时炸弹”。它的闪存介质已经出现问题,并且其工作环境(频繁断电和严重过热)非常恶劣。

    我强烈建议您:

    立即备份所有重要数据! 这是最优先、最紧急的事项。鉴于已有 2,472 次媒体和数据完整性错误,您的某些文件可能已经损坏。

    调查并解决问题根源:

    过热问题:检查设备的散热系统。如果是笔记本,请清理风扇和散热口的灰尘。确保硬盘所在位置有足够的空气流通。

    断电问题:排查为什么会频繁发生不安全关机。是操作系统问题、电源问题还是您有强制关机的习惯?

    考虑更换硬盘:鉴于硬件已经出现不可逆转的迹象(完整性错误),为了您数据的长期安全,更换一块新的、质量可靠的固态硬盘是最稳妥的解决方案。
    kokutou
        20
    kokutou  
       5 天前 via Android
    大船货?
    sssxxxyyzz
        21
    sssxxxyyzz  
       5 天前
    写入那么少就掉了 15%寿命。怀疑你这不是正经盘,你看我的
    好的,这是对您提供的三份 CrystalDiskInfo 报告的分析。

    这三份报告记录了同一块固态硬盘( SSD )在不同时间点的状态。

    硬盘基本信息

    型号: UMIS RPJYJ1T24MLR1HWY

    容量: 1024.2 GB

    接口: NVMe PCIe 4.0 x4

    状态对比分析

    下表总结了硬盘从 2024 年 10 月到 2025 年 7 月 的关键使用数据变化:

    指标 2024 年 10 月 23 日 2025 年 3 月 15 日 2025 年 7 月 1 日
    通电总时长 2090 小时 4310 小时 6166 小时
    健康状态 99 % 98 % 97 %
    已用百分比 1 % 2 % 3 %
    总读取量 20841 GB 36792 GB 66383 GB
    总写入量 17034 GB 28315 GB 47577 GB
    通电次数 448 次 834 次 1134 次
    不安全关机次数 11 次 22 次 30 次
    温度 45°C 44°C 47°C
    结论解读

    使用强度: 该硬盘的使用强度非常高。

    在 2024 年 10 月至 2025 年 3 月的大约 5 个月里,通电时间增加了约 2220 小时,写入了超过 11000 GB 的数据。

    在 2025 年 3 月至 2025 年 7 月的大约 3.5 个月里,通电时间增加了约 1856 小时,写入了超过 19000 GB 的数据,使用强度进一步加大。

    健康度损耗: 硬盘的健康状态( Health Status )和已用百分比( Percentage Used )数值变化符合其高强度使用的预期。健康度从 99% 缓慢下降到 97%,属于正常磨损。

    运行状态:

    硬盘的工作温度在 44°C 到 47°C 之间,对于一块 NVMe 固态硬盘来说,这是一个正常且理想的温度范围。

    值得注意的是,“不安全关机次数”在持续增加,从 11 次增加到 30 次。这通常指系统在未完成正常关机程序时断电(如强制关机、意外断电)。虽然目前没有引发问题,但频繁的不安全关机可能会增加数据丢失或固件损坏的风险。

    总的来说,这块硬盘目前状态良好,但正处于高强度的使用环境中。各项指标的变化均在正常范围内,唯一需要留意的是不安全的关机次数有所增多。
    importmeta
        22
    importmeta  
       5 天前
    之前我也碰见类似的, 不建议用了, 如果能刷固件找俄语论坛刷固件, 然后买个盒子做成移动硬盘.
    charles0
        23
    charles0  
       4 天前 via iPhone
    0e 这一项( Media and Data Integrity Errors )不为 0 ,这个固态硬盘已经可以看作坏了,建议立即抢救数据,然后换一个硬盘
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5854 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 01:44 · PVG 09:44 · LAX 18:44 · JFK 21:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.