从服务器崩溃说开去

  我运行/管理着若干应用程序服务器,这些机器平时干活非常卖力,印象当中,它们从未出现过宕机问题。昨天下午,我收到了一条消息,其大意是服务器无法登陆了,当通过远程桌面连接时,客户端会报告内部错误,然而我自己登录却很正常。
  本地登录很正常,顺其自然认为是那名客户的电脑有问题,问题不是出在服务器,于是,我让他继续等待,如果十分钟后还出现同样的问题再联系我,刚说完,我就去忙别的事情了。时间还没过去 3 分钟,又有一条消息出现了,内容同样是服务器无法登录的报告。这让我觉得非常奇怪,于是用他们的方法尝试登录服务器,果然,内部错误的提示出现了。
  为了恢复业务的正常运行,我重新启动了服务器,他们果然能够登录,只要业务恢复,就可以高枕无忧了?显然,这会埋下很多伏笔,说不定什么时候服务器会再度瘫痪。当我打开了事件查看器,里面的日志暴露了一个不争的事实,远程桌面模块瘫痪,实际上已经过去了好几天,说得直白一点,客户们在几天前就不能登录服务器了。
  既然事情已经发展到了今天,除了要查明真相,更重要的是要挽回信誉,我下意识的觉得,应该给与赔偿,即便我们在 ToU 当中并没承诺服务器因遭受破坏而影响业务这种情况应当赔偿,而且客户也没有主动索赔,坏了好几天没人反馈,基本上可以认为没有人受到影响。
  当延长使用时长作为赔偿的通知发到客户群之后,他们都觉得不可思议,而有一名在友商开了类似服务的群成员当即表示要和我签署订单。关于赔偿,我在调查事件日志后发现,服务器崩溃,原因竟然是有攻击者尝试多线程穷举密码,导致远程桌面服务不堪重负所致,换句话说,这次服务器崩溃,我是不需要负责的,话虽然是这么说,但人总是有感情的,今天你对客户好,明天客户们就让你挣得更多钱,如果因为这件事,跟客户们辩论到底,既伤了精神,更是会伤和气,也会失去客户们的支持。

留下评论

您的电子邮箱地址不会被公开。 必填项已用*标注