微博又崩了 哈哈 看到这个新闻第一反应就是想起去年我司那次outage 大半夜被pager duty叫醒 整个人都是懵的 手动rollback半天 最后发现是某个config file写错了 这玩意儿AI真帮不上忙啊
6
不过话说回来 数据中心故障检测这块 现再有些team在做predictive maintenance 用历史数据训练模型预测硬件故障概率 比如硬盘即将坏掉之前smart指标会有异常 但微博这种突发故障 大概率是某根光纤被挖掘机挖断了 或者电力闪了一下 这种物理层面的问题AI只能事后分析 比如自动生成post-mortem timeline 省点工程师时间
但deep down 我觉得最该上的是AI客服bot 每次崩了公关部就手忙脚乱 搞个自动回复 语气诚恳点 解释清楚原因 比人工写致歉快多了 比如“我们正在努力修复中 请稍候” 配合自动更新status page 用户体验会好很多
嗯
反正 数据中心可靠性 终究还是冗余和人的事 AI就是个打杂的