记一次服务器炸盘：从硬件故障到数据恢复

爆炸过程

网络拓扑

在讲述“爆炸”之前，先贴一张家里的网络拓扑图：

主路由、Ubuntu 服务器和我的博客都通过 ESXI 虚拟化后，放置在一个畅网的 N100 主机上；其他的一些 Docker 服务全部运行在一台运行 Unraid 的 NAS 上。

这一套配置已经安稳运行了 2 年多，期间除了停电导致的关机，没有出现过任何问题。

爆炸过程及问题排查

在 1 月 31 日下午，我突然没法访问家里服务器的所有内容了，本以为是之前升级 Ubuntu 系统导致 ESXI 出了问题，于是让家里人进行了重启，还是没法访问，并且家里没网。这里可以确定 iKuai 的虚拟机并没有启动，大概率是ESXI的问题。远程调试很麻烦，遂作罢。

2 月 10 号回到家，将主机连接到显示器，发现直接进入了 BIOS ，ESXI 没有启动，肯定是硬盘出了问题，在 BIOS 中选择简单磁盘检测显示 Failed。

现在最重要的就是保护磁盘的数据并想办法恢复。马上使用微PE制作了 PE 系统，并在里面放了 Diskgenius 专业版：

查看硬盘的 SMART 信息，发现已经损坏：

于是使用 Diskgenius 的磁盘镜像功能，将数据全部导出为一个镜像文件：

注意：一定要选择“备份所有扇区”，这样的话备份的镜像就是硬盘里所有的完整数据。

镜像创建完成后，我开始尝试能不能直接将数据读出，但是经过多种尝试，最终以失败告终。

购买新硬件及数据恢复

好巧不巧，现在是2026年2月，内存和硬盘的价格都翻了好几番，在几经周折下，我最终选择了小黄鱼上一个256G的海力士硬盘，花了150大洋（太痛了，几个月之前只要几十！）：

耐用性啥的暂时不考虑了，反正固态价格正常后我肯定会把它换掉的，临时用一段时间。

使用这个硬盘恢复了之前的镜像数据，将它装入主机，插电，开机！

成功进入ESXI系统！

你以为这就完了？不！

进入系统后，我发现所有的虚拟机都是损坏的状态，无法读取和启动！应该是都有数据损坏了！

尝试了很多种方法，希望将文件转换为可用，结果发现虚拟机文件直接没了！！没错，已经找不到这些文件了！

看来损坏很严重了，于是我放弃了恢复，直接全部重建。

好在我所有的服务都有定时备份的习惯，并且遵循 3-2-1 备份原则，不会出现丢失配置和数据的情况，只是稍微麻烦一点就是了。

重建服务器

虚拟化系统选择及配置

经过复盘，这次的“爆炸”主要是由于对硬盘 SMART 信息的关注不够及时。ESXI 并不能很方便地查看 SMART 信息，因此本次我将虚拟化系统更换为了 PVE。由于 PVE 底层就是 Debian，所以查看 SMART 信息就非常方便了。

去到官网直接下载镜像文件，装就完了！

然后把 iKuai、Openwrt 镜像全部导入，启动后使用之前备份恢复配置，这就 OK 了！

为了便于查看硬盘的SMART信息，我使用 PVE-Tools-9 给管理界面添加了直观的信息：

另外，我把原本运行在 iKuai Docker 的 Lucky 转移到了 PVE 的 LXC 容器，少了一层嵌套能提高一丝丝性能：

云服务器购买

这次爆炸也让我意识到，将博客等常用的服务放置在家庭里的主机上是非常不靠谱的，指不定什么时候就爆炸，因此我决定再次购买云服务器，将重要服务全部上云来保障安全。

为了便于管理，我依然选择了阿里云的服务器 ECS，99元/年2H2G3M，续费同价（真不是广告）：

https://www.aliyun.com/benefit/select/cloud-discount?spm=5176.42028462.nav-v2-dropdown-menu-3.d_main_0_0.e939154aYIdOmy&scm=20140722.M_10944750._.V_1

进行一番简单的配置后就可使用了，另外，因为我使用了 ESA，所以可以设置源站保护，仅允许 ESA 的 IP 访问服务器，可以提高安全性，需要在安全组添加规则（注意：轻量应用服务器不支持），具体配置可以见我这篇文章的其他配置->安全设置一节：

https://burgess-t.cn/2025/03/02/KT06JvYC

顺带一提，ECS 现在有个文件备份功能，可以每天给服务器的文件进行备份，有 100G 的免费空间，这个空间不是按文件大小算的，而是按磁盘大小算的。例如你有一个 40G 的磁盘，那么备份这个磁盘就要花费 40G 空间，但是备份2次也还是占用 40G：

数据恢复

数据恢复的过程其实很简单，但是由于我的方向错了，导致花了很多时间。

之前提到我有数据备份的习惯，而博客数据更是天天备份，使用的是自带的备份插件完成的：

当时我就考虑到备份的文件仍然存在同一块硬盘，如果坏了，那备份数据也没了，所以就设置了定时脚本，每周把备份文件复制到 NAS 里。

所以这次我能轻松的拿到备份文件。

但是，拿到备份文件后，我只记得这是个备份文件，不记得它是在哪里备份的了，以至于我一开始以为是在1Panel 里备份的：

所以尝试了很多次也没有恢复，以至于我把文件全部解压出来导入了服务器，发现图片都是有的，但是文章全部没有。这是因为 Halo 的文章等数据全部是存在数据库中的，只恢复 Halo 目录下的数据不行。

最后巧合之下我把备份文件上传到了 Halo 的备份插件，发现全部恢复了！悬着的心终于放下了。

总结（AI写的(●ˇ∀ˇ●)）

这次“爆炸”虽然折腾了一大圈，但也算是个血泪教训，简单总结几点反思吧：

硬盘健康不能靠猜：之前总觉得服务器稳 run 了 2 年多没问题，就忽略了 SMART 信息的监控。后来才想起来，ESXi 原生界面看 SMART 确实反人类，这次换 PVE 也算是因祸得福，以后能直观看到硬盘健康度，心里踏实点。
备份是最后的救命稻草：这次要是没有遵循 3-2-1 备份原则，没有每周同步到 NAS 的习惯，博客可能真就没了。数据无价，一定要多备份
家用与云端的平衡：家用服务器折腾起来确实好玩，性能也强，但稳定性终究比不上云端。这次之后我想通了，重要的生产环境还是上云稳妥，家里留着做测试和娱乐就好，别把鸡蛋全放在一个篮子里。
2026 年的硬件真的贵：最后吐槽一下，现在的硬件价格太离谱了，一块 256G 固态都要 150 大洋。希望大家的硬盘都坚挺点，毕竟现在换硬件是真的痛！

总之，炸机不可怕，可怕的是没有备份。希望各位读者的服务器都能稳如老狗，永远不需要用到这篇教程！

最后给爆炸的 970evo 一张遗照吧，这可是我在 19 年花了五百多块大洋买的！2块/G！

不过坏盘二手卖了 70：