“泰坦尼克”海难给 IT 管理员的启示

  1912 年 4 月 14 日,处女航中的“泰坦尼克”号发生了有史以来最著名的海难,超过 1,500 人葬身冰冷的北大西洋,纵观这次著名的海难,与 IT 系统的失控甚至彻底瘫痪有太多相似之处。任何灾难,都是由一连串决定性事件累加而成,现在,我们重返“泰坦尼克”号。
  “泰坦尼克”在一开始就被号称“永不沉没”,这不仅仅是商业宣传的口号,而是贯穿了从设计到航行的所有部分,从伊斯梅到普通船员,几乎无人不认为她是“不沉之船”。从设计上来说,在当年,她的确算得上设计精良,配备双层底仓,她可以承受 4 间水密舱进水而不会沉没,用来建造“泰坦尼克”的钢铁也是当时最好的,沃尔夫造船厂也雇佣了最好的工人来建造她。她的船长是有着四十年海上经验的史密斯上校,在他的职业生涯中,从未发生过重大事故。因此,当时的人们普遍认为,这艘船“不可能沉没”。
  随着 IT 系统升级换代,新系统会解决老系统存在的诸多问题,就像“泰坦尼克”一样,她几乎被认为是完美并且打不破的。即便聘请最资深的系统管理员,他也不能保证管理的新系统不会出问题。
  在启航时,“泰坦尼克”就出现了一些状况,首先,白星航运突然变更了人事安排,并且又遇到了运煤工罢工的问题,然后又险些与停在一旁的“海洋”号发生碰撞,她的多数船员并非资深海员。现在,天气晴朗,万里无云,这艘大船正离开南安普敦。
  在 IT 系统中,对管理层的人员进行突然变更,新的成员不一定熟悉整个系统的运转机理,运行时出现小插曲可能是无法避免的,在系统出现问题时,工作团队可能无法应对局面。
  从皇后镇出发,经过了几天的航行,现在是 1912 年 4 月 14 日。“泰坦尼克”上的船员刚刚扑灭了一场大火,这场持续了三个星期的火灾发生在第五和第六煤仓之间。顶层甲板上,电报员菲利浦收到了周围船只传来的大量冰情警报。菲利浦是马可尼电报公司的雇员,并非隶属于白星航运,他的主要职责是收发付费乘客的私人电报,相比之下,天气电报的优先级更低。
  影响 IT 系统可靠运行的因素可能是长时间且经常存在的,以至于让管理员们感到习以为常,就像“泰坦尼克”一样,在蒸汽船时代,煤舱火灾是时有发生的事情。在 IT 系统中,故障预警机制可以预先提示不正确的配置以及潜在的危险,预警系统出现问题会让整个系统变得危险且难以察觉。
  气温骤降,越来越多的冰情警报传到了“泰坦尼克”的电报室,但真正传到舰桥的冰情警报寥寥无几。舰桥上,作为预防措施,史密斯船长下令南移航线,船员们对这艘“永不沉没”的大船有着无限的自信,因此并没有降低航速。在下层甲板,船员们将自来水灌入了水温监测系统,因为管道无法伸入海水中。
  这是一个星光明媚的夜晚,天上的星星就像切割的钻石一样,闪闪发光,海面上有一道难以察觉的薄雾,海面平静得像个小池塘。瞭望员在桅杆上的瞭望台上密切监视着海面。周围的船只不断地向“泰坦尼克”发出冰山警告,“加州人”号发送的冰情警报遭到了菲利浦粗鲁的回应:“住口!住口!你干扰到我的信号了!我正在往开普雷斯发电报!”现在来到了深夜 23 点 30 分。
  IT 系统的故障预警机制一旦出现问题,可能就连系统管理员也不一定知晓,然而,系统管理员可以通过其它异常变化,从侧面知晓系统发生的问题,如响应速度变慢,或者偶然的连接失败。测试海水的温度可以评估冰山的大致距离,但船上的自来水显然不会触发警报,晚上的冰情警报也几乎没有传到舰桥,瞭望台成了预警系统的最后希望。
  瞭望台上,瞭望员密切注视着航线的前方,23 点 39 分,他们看到了一座大冰山,便打响了三声警钟,然后给舰桥打了电话:“冰山,正前方!”接电话的是六副穆迪,他立即通知默多克,默多克下令右满舵,在执行命令时,舵手误将其打成了左满舵,但无论如何,碰撞难以避免,冰山与“泰坦尼克”发生了致命的 7 秒擦撞,震开了右舷下的船板,海水开始灌入她的船舱。
  当所有故障预警机制全部失效时,系统将会在未知的状态下运行,突如其来的问题发生时,人性的弱点就会把问题变得更糟,为了避免系统崩溃而下达的命令,很可能是不正确的,在命令执行时,也可能因为手忙脚乱而出现错误。
  安德鲁斯设计师与史密斯船长检查了船的损坏情况,得出结论,她最多还剩下两个小时的时间。放下救生艇的工作开始了。原定在 4 月 14 日进行救生艇演习,因天气原因,这次预定的演习被取消了。船员们担心救生艇满载时放下水会发生倾覆等问题,所以不敢让所有救生艇满载,原本能容纳 1,200 人以上的救生艇,最终只救出了 710 人,在乘客登上救生艇时,还发生了不少的混乱。最终,该船于撞击的 2 小时 40 分后沉没,超过 1,500 人葬身冰冷的北大西洋。
  在 IT 系统的管理中,进行故障演练相当重要,故障演练虽不能消除故障,但当发生故障时,先前的演练积累的经验可以最大限度挽救损失。
  无论一套系统有多么坚不可摧,它的保障措施依然非常重要,“泰坦尼克”被认为是人类造船技术的奇迹,在人们盲目自信的情况下,她的梦想只航行了 4 天就彻底破灭了,随之而来的是大量生命和财产的损失。当系统将要出现问题时,预警机制在一定程度上可以避免问题的发生,管理员应当仔细分析每一条警报,察觉出关键的消息。
  没有灾难会平白无故发生,只有太多的安全隐患被忽视,例如煤舱着火会导致船体结构遭到破坏,用自来水作为海水温度的依据会误判冰山的距离等。在安全被极端忽视的情况下,IT 系统如果不会发生运行问题甚至崩溃,真可谓世界奇迹。

留下评论

电子邮件地址不会被公开。 必填项已用*标注