有个 NVME 盘用了好些年最近老掉盘, smartctl 查的指标咋分析健康状态。

6 天前
 yuzuke
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        48 Celsius
Available Spare:                    100%
Available Spare Threshold:          50%
Percentage Used:                    15%
Data Units Read:                    1,107,071 [566 GB]
Data Units Written:                 10,088,868 [5.16 TB]
Host Read Commands:                 4,631,272
Host Write Commands:                257,829,708
Controller Busy Time:               4,255
Power Cycles:                       124
Power On Hours:                     446
Unsafe Shutdowns:                   101
Media and Data Integrity Errors:    2,472
Error Information Log Entries:      58
Warning  Comp. Temperature Time:    239
Critical Comp. Temperature Time:    157
Temperature Sensor 1:               48 Celsius
Temperature Sensor 2:               51 Celsius
Thermal Temp. 2 Transition Count:   6
Thermal Temp. 2 Total Time:         13611507
1443 次点击
所在节点    程序员
23 条回复
1vanishedtotally
6 天前
其实你可以设置主板启动时间+1s,有的时候就是主板启动太快了,硬盘还没睡醒就开机了
lechain
6 天前
为啥写比读大一个数量级?你的电脑是日常开了啥一直写盘的软件吗?
yuzuke
6 天前
@1vanishedtotally 机器从来不关机,就这几个月会出现突然读取不到硬盘了,需要断电重启。
yuzuke
6 天前
@lechain 要说一直在运行的软件,也就每天本地文档增量压缩归档一份到 COS 里面。
busier
6 天前
下次你把 smart 报表贴到 AI 里面 给你分析的妥妥的
ntedshen
6 天前
> Percentage Used: 15%
> Media and Data Integrity Errors: 2,472
C0reFast
6 天前
Media and Data Integrity Errors: 2,472
0E 了,换盘吧。
wuruxu
6 天前
是的,扔给 GPT 分析的很全面
AI 特别适合处理有边界的信息
qq316107934
6 天前
445 小时运行 500GB 读 5TB 写入 就坏块了么,这是哪家的 SSD ?
124 次通电循环里有 101 次非正常关机也是有点惨...
Cooky
6 天前
Error Information Log Entries
这个应该是可以看详细日志的
DesmondCobb
6 天前
> Media and Data Integrity Errors: 2,472

礼问 OP 是三星的盘吗?前两年三星的部分批次疑似存在缺陷,有大量爆 0E 的情况,我手上两块 980 都碰到了

ref: https://www.reddit.com/r/buildapc/comments/x82mwe/samsung_ssd_smart_0e_issue/
HFX3389
6 天前
> Media and Data Integrity Errors: 2,472
0E 都上 2000 了赶紧换吧
JoeJasper
6 天前
如果是从来不关机的话,那就得检查下排查电源/系统问题吧,124 次通电 101 非正常断电
yuzuke
6 天前
@DesmondCobb Micron 2200S 镁光的
yuzuke
6 天前
@qq316107934 镁光的
yuzuke
6 天前
@Cooky 日志里面没啥信息
yuzuke
6 天前
@wuruxu
@busier

PASSED ,AI 让我继续用。
yuzuke
6 天前
@JoeJasper 我看看
sssxxxyyzz
6 天前
Gemini 2.5 Pro 建议你换盘

好的,我们来详细分析一下这块镁光 2200S 固态硬盘的 S.M.A.R.T. 数据。

一句话总结:虽然硬盘自检结果为“通过”,但详细数据显示出几个非常严重的问题,表明这块硬盘的可靠性已经严重受损,存在数据丢失的风险。

正面指标 (The Good)

Critical Warning: 0x00: 硬盘目前没有触发任何最高级别的紧急警报。

Available Spare: 100%: 备用块充足。

Percentage Used: 15%: 硬盘的理论写入寿命消耗了 15%,还剩余 85%。

Temperature: 48 Celsius: 当前的工作温度是正常的。

严重问题 (The Bad - Red Flags)

这块硬盘有三个非常令人担忧的指标,需要您高度重视:

Media and Data Integrity Errors: 2,472

这是最严重的问题。 这个数值记录了主控芯片在从闪存读取数据时,发生无法用 ECC (错误检查和纠正)代码修复的错误次数。理想情况下,这个值应该永远是 0 。出现如此高的数值意味着硬盘的闪存单元( NAND Flash )已经出现物理损坏或不稳定,无法可靠地存储数据。这直接威胁到您的数据安全。

Unsafe Shutdowns: 101

这个数字非常高。它记录了硬盘在没有接到正常关机指令的情况下被断电的次数。这通常由强制关机、蓝屏、突然断电或系统崩溃引起。

与仅有 124 次的通电次数( Power Cycles )相比,不安全关机率高达 81% (101 / 124)。这说明设备几乎每次都处于非正常关机的状态,这会严重损害硬盘的文件系统和内部数据映射表,是导致数据损坏和硬盘故障的常见原因。

Critical Comp. Temperature Time: 157

这个指标记录了硬盘在“严重过热”状态下运行的总时长,单位是分钟。

您的硬盘有 157 分钟(约 2.6 小时) 的时间处于严重过热状态。长时间过热会加速闪存单元的老化,甚至对主控芯片造成不可逆的物理损伤。这很可能是导致 Media and Data Integrity Errors 数量巨大的根本原因。

使用模式分析

写入量: 在仅 446 个通电小时内,硬盘已经写入了 5.16 TB 的数据。这属于中高强度的写入。

寿命估算: 根据 5.16 TB 写入消耗了 15% 的寿命,可以估算出该硬盘的总写入寿命( TBW )大约在 35 TB 左右 (5.16 / 0.15 ≈ 34.4)。这是一个非常低的 TBW 数值,表明这可能是一款低耐久度的 QLC 硬盘,或者过热已经严重加速了其寿命损耗。

结论与建议

这块硬盘虽然还能工作,但已经是一颗“定时炸弹”。它的闪存介质已经出现问题,并且其工作环境(频繁断电和严重过热)非常恶劣。

我强烈建议您:

立即备份所有重要数据! 这是最优先、最紧急的事项。鉴于已有 2,472 次媒体和数据完整性错误,您的某些文件可能已经损坏。

调查并解决问题根源:

过热问题:检查设备的散热系统。如果是笔记本,请清理风扇和散热口的灰尘。确保硬盘所在位置有足够的空气流通。

断电问题:排查为什么会频繁发生不安全关机。是操作系统问题、电源问题还是您有强制关机的习惯?

考虑更换硬盘:鉴于硬件已经出现不可逆转的迹象(完整性错误),为了您数据的长期安全,更换一块新的、质量可靠的固态硬盘是最稳妥的解决方案。
kokutou
6 天前
大船货?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1142158

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX