网站挂了24小时

我有两台独立服务器,一台做储存一台做计算。在过去的48小时里服务器变得极其不稳定。我原本以为是我更新修补了由CVE-2015-7547引发的glibc漏洞导致系统层面的兼容性出问题,后来查dmesg和/var/log/message,都没有任何crash log,也没有脚本或者后门程序执行reboot命令。由此联想到联系机房对服务器硬件进行检查。

我的服务器在OVH,作为全世界最大的IDC之一,他们的服务也还是很完善的。他们提供rescue image。通过设置netboot可以挂载rescue pro,自动生成root密码并发送到你邮箱,可以登陆ssh也可以登陆网页版。网页版有测试硬件这方面的套件。于是我就对严重怀疑对象——内存进行了长达1个多小时的测试。果然,内存报错,9个错。

把检测log贴到support后等他们回复,他们发现这可能是一个主板的问题,需要更换。他们免费帮我更换了主板。我内心的活动:我这是赚了吗?(花了那么多钱一个月终于让你们服务服务我了)是好事还是坏事?(我的服务挂了整整1天)

在本文发布之时服务器才刚刚启动20分钟呢!

作者:小老外

我还需要不断地学习。

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据