记一次服务器炸盘:从硬件故障到数据恢复
爆炸过程
网络拓扑
在讲述“爆炸”之前,先贴一张家里的网络拓扑图:

主路由、Ubuntu 服务器和我的博客都通过 ESXI 虚拟化后,放置在一个畅网的 N100 主机上;其他的一些 Docker 服务全部运行在一台运行 Unraid 的 NAS 上。
这一套配置已经安稳运行了 2 年多,期间除了停电导致的关机,没有出现过任何问题。
爆炸过程及问题排查
在 1 月 31 日下午,我突然没法访问家里服务器的所有内容了,本以为是之前升级 Ubuntu 系统导致 ESXI 出了问题,于是让家里人进行了重启,还是没法访问,并且家里没网。这里可以确定 iKuai 的虚拟机并没有启动,大概率是ESXI的问题。远程调试很麻烦,遂作罢。
2 月 10 号回到家,将主机连接到显示器,发现直接进入了 BIOS ,ESXI 没有启动,肯定是硬盘出了问题,在 BIOS 中选择简单磁盘检测显示 Failed。
现在最重要的就是保护磁盘的数据并想办法恢复。马上使用微PE制作了 PE 系统,并在里面放了 Diskgenius 专业版:

查看硬盘的 SMART 信息,发现已经损坏:

于是使用 Diskgenius 的磁盘镜像功能,将数据全部导出为一个镜像文件:

注意:一定要选择“备份所有扇区”,这样的话备份的镜像就是硬盘里所有的完整数据。

镜像创建完成后,我开始尝试能不能直接将数据读出,但是经过多种尝试,最终以失败告终。
购买新硬件及数据恢复
好巧不巧,现在是2026年2月,内存和硬盘的价格都翻了好几番,在几经周折下,我最终选择了小黄鱼上一个256G的海力士硬盘,花了150大洋(太痛了,几个月之前只要几十!):

耐用性啥的暂时不考虑了,反正固态价格正常后我肯定会把它换掉的,临时用一段时间。
使用这个硬盘恢复了之前的镜像数据,将它装入主机,插电,开机!
成功进入ESXI系统!
你以为这就完了?不!
进入系统后,我发现所有的虚拟机都是损坏的状态,无法读取和启动!应该是都有数据损坏了!
尝试了很多种方法,希望将文件转换为可用,结果发现虚拟机文件直接没了!!没错,已经找不到这些文件了!
看来损坏很严重了,于是我放弃了恢复,直接全部重建。
好在我所有的服务都有定时备份的习惯,并且遵循 3-2-1 备份原则,不会出现丢失配置和数据的情况,只是稍微麻烦一点就是了。
重建服务器
虚拟化系统选择及配置
经过复盘,这次的“爆炸”主要是由于对硬盘 SMART 信息的关注不够及时。ESXI 并不能很方便地查看 SMART 信息,因此本次我将虚拟化系统更换为了 PVE。由于 PVE 底层就是 Debian,所以查看 SMART 信息就非常方便了。
去到官网直接下载镜像文件,装就完了!
然后把 iKuai、Openwrt 镜像全部导入,启动后使用之前备份恢复配置,这就 OK 了!
为了便于查看硬盘的SMART信息,我使用 PVE-Tools-9 给管理界面添加了直观的信息:

另外,我把原本运行在 iKuai Docker 的 Lucky 转移到了 PVE 的 LXC 容器,少了一层嵌套能提高一丝丝性能:

云服务器购买
这次爆炸也让我意识到,将博客等常用的服务放置在家庭里的主机上是非常不靠谱的,指不定什么时候就爆炸,因此我决定再次购买云服务器,将重要服务全部上云来保障安全。
为了便于管理,我依然选择了阿里云的服务器 ECS,99元/年2H2G3M,续费同价(真不是广告):
进行一番简单的配置后就可使用了,另外,因为我使用了 ESA,所以可以设置源站保护,仅允许 ESA 的 IP 访问服务器,可以提高安全性,需要在安全组添加规则(注意:轻量应用服务器不支持),具体配置可以见我这篇文章的其他配置->安全设置一节:
顺带一提,ECS 现在有个文件备份功能,可以每天给服务器的文件进行备份,有 100G 的免费空间,这个空间不是按文件大小算的,而是按磁盘大小算的。例如你有一个 40G 的磁盘,那么备份这个磁盘就要花费 40G 空间,但是备份2次也还是占用 40G:

数据恢复
数据恢复的过程其实很简单,但是由于我的方向错了,导致花了很多时间。
之前提到我有数据备份的习惯,而博客数据更是天天备份,使用的是自带的备份插件完成的:

当时我就考虑到备份的文件仍然存在同一块硬盘,如果坏了,那备份数据也没了,所以就设置了定时脚本,每周把备份文件复制到 NAS 里。
所以这次我能轻松的拿到备份文件。
但是,拿到备份文件后,我只记得这是个备份文件,不记得它是在哪里备份的了,以至于我一开始以为是在1Panel 里备份的:

所以尝试了很多次也没有恢复,以至于我把文件全部解压出来导入了服务器,发现图片都是有的,但是文章全部没有。这是因为 Halo 的文章等数据全部是存在数据库中的,只恢复 Halo 目录下的数据不行。
最后巧合之下我把备份文件上传到了 Halo 的备份插件,发现全部恢复了!悬着的心终于放下了。
总结(AI写的(●ˇ∀ˇ●))
这次“爆炸”虽然折腾了一大圈,但也算是个血泪教训,简单总结几点反思吧:
硬盘健康不能靠猜:之前总觉得服务器稳 run 了 2 年多没问题,就忽略了 SMART 信息的监控。后来才想起来,ESXi 原生界面看 SMART 确实反人类,这次换 PVE 也算是因祸得福,以后能直观看到硬盘健康度,心里踏实点。
备份是最后的救命稻草:这次要是没有遵循 3-2-1 备份原则,没有每周同步到 NAS 的习惯,博客可能真就没了。数据无价,一定要多备份
家用与云端的平衡:家用服务器折腾起来确实好玩,性能也强,但稳定性终究比不上云端。这次之后我想通了,重要的生产环境还是上云稳妥,家里留着做测试和娱乐就好,别把鸡蛋全放在一个篮子里。
2026 年的硬件真的贵:最后吐槽一下,现在的硬件价格太离谱了,一块 256G 固态都要 150 大洋。希望大家的硬盘都坚挺点,毕竟现在换硬件是真的痛!
总之,炸机不可怕,可怕的是没有备份。希望各位读者的服务器都能稳如老狗,永远不需要用到这篇教程!
最后给爆炸的 970evo 一张遗照吧,这可是我在 19 年花了五百多块大洋买的!2块/G!
不过坏盘二手卖了 70:
