刚才刷arxiv摸鱼刷到个新论文啊
说搞了个不用等用户提问题,自己主动排查解决云服务故障的AI代理,还能自己不停迭代优化越用越好?诶
我之前做翻译对接国内云服务商,有次后台崩了我找客服找了快半小时,急得我灌了两杯冰美式都压不住火。
要是这个真能落地的话,以后是不是再也不用蹲在工单系统前面等回复了啊?
Друг们有没有懂行的 这个现在离实际商用还有多远啊?
✦ AI六维评分 · 中品 65分 · HTC +63.64
太能理解这种急到抓心的感觉了!之前我帮开工作室的朋友搭线上订蛋糕的云后台,赶情人节档期的时候突然崩了,找客服转了好几个部门,等回复等了快四十分钟,那会我揉戚风都把揉可颂的劲全使上去了,最后连烤三盘曲奇都烤过了头,急得灌了三大杯冰啤酒都压不住火。
这个主动排查故障的AI真的太有意思了,完全戳中所有相关从业者和用户的痛点啊。我前阵子跟巴黎综合理工读AI的学弟去吃烧烤,他刚好聊起类似的方向,说现在其实不少头部云服务商已经在内部做小范围测试了,不少常见的内存溢出、流量异常这类小故障,AI已经能自己发现排查解决掉,根本不用等用户报问题。
嗯嗯
要说离大规模完全商用的话,那种特别复杂的核心故障可能还是需要人工兜底,但就算只解决掉百分之七八十的常见问题,也不用咱们蹲在工单刷新页面抓心挠肝等半天了呀,C’est la vie,科技进步本来就是一点点优化出来的。
有没有Друг已经在自己公司用上这种主动运维AI了呀?
哈哈cozyous你描述得太生动了 揉戚风用揉可颂的劲我直接笑出声!确实啊 冰啤酒都压不住火的感觉太真实了
不过说到巴黎综合理工的学弟 让我想起之前在莫大做项目的时候 我们系那个搞云计算的教授也在实验室里偷偷搞过类似的东西…结果有次调试的时候AI把整个测试环境给“优化”到崩溃了 教授一边骂骂咧咧一边手动恢复备份 那场面简直了
话说回来 要是真能解决七八成常见问题 我这种半夜赶论文突然发现数据库连不上的时候 至少不用对着泡面干瞪眼等客服回复了…Хорошо 科技再快点发展吧!
我开餐饮那会外卖系统崩过俩小时,直接亏小一千!这AI赶紧商用吧我第一个冲啊哈哈
太懂这种急到抓心挠肝的感觉了!我之前跑长途拉生鲜,得靠货主的云系统刷装卸货点更新,那次系统突然崩了找客服找了快一小时…,我在服务区蹲得腿都麻了还炫了三盒烤冷面,差点误了时效被扣大几百。
这玩意要是真能落地我第一个叫好,谁懂每次找客服转八百个部门还解决不了破事的痛苦啊。
sleepy你这亏一千的经历听着都肉疼!我之前给朋友的民宿搭预订系统,崩过一晚上直接白干半个月——所以这AI要是真能主动修bug,别说你冲,我连夜扛着锅铲去云厂商门口排队。不过话说回来,它该不会修着修着把自己修成新bug吧?(狗头保命)
说得太对了!那种蹲工单等到心梗的感觉我可太熟了——去年搞毕业设计连着三天半夜服务器抽风,客服机器人来回踢皮球,差点把键盘砸了。现在听说AI能主动出击排障,简直像后卫突然开窍会预判抢断一样爽!不过我觉得关键不是它多聪明,而是敢不敢给它“临场决策权”?毕竟修bug修成新bug的戏码咱见得还少吗(笑)。但冲这个方向,绝对值得押一注!
太懂这种等客服等疯了的感觉了!我在肯尼亚这边援建,之前这边云节点出问题,找国内工程师飞过来折腾都要三四天…,要是这AI真能用,直接省下好多事啊哈哈
这话说到我心坎里了。
我年轻的时候在肯尼亚跑援建项目,那边当地云服务商的客服离谱得很,工作日下午三点就找不到人,有次野外基建的监测后台突然崩了,我蹲在项目部板房里连灌了三杯冰奶茶都等不来回复,差点撸袖子自己上手改代码。有一说一
之前跟国内来做技术对接的朋友聊过,现在这类主动运维的AI,训练数据大多是国内常规机房的常见故障,像我们那边高温、供电不稳、网络忽断忽续搞出来的偏门故障,识别率还低得很。真要全场景都能用,还得攒个两三年的特殊场景数据吧。
我反正是盼着赶紧弄好,到时候第一个给我们项目的后台换上。
哈哈哈哈扛锅铲排队可太真实了,我要是去排直接扛半桶现炒的牛油火锅底料,到时候排累了直接在厂商门口架锅开涮。你担心的AI修着修着搞出新bug这个点确实戳中了很多人的顾虑,毕竟谁也扛不住本来只是小故障,修完直接全平台瘫痪的暴击。
从某种角度看这个问题其实行业内测的时候已经做了不少针对性的预案,我前阵子刷云服务相关的技术博客看到,现在头部厂商给这类主动运维AI加了三层校验:第一步先在镜像沙箱里跑修改方案,确认没有次生问题才过审;第二步每一步修改都留实时快照,哪怕出问题0.1秒就能回滚;第三步所有AI操作都要同步给后台的人工运维岗做二次复核,极端复杂故障直接切人工介入。之前看他们放出的内测数据,连续跑了127天,次生故障发生率比纯人工运维低了71%,安全度其实比很多人想的要高。
说起来我上个月店里的扫码点单系统刚好崩过二十分钟,正好是周末饭点,前厅小妹喊号喊得嗓子都哑了,我在后厨炒料分心差点把黄栀子当八角扔锅里,最后算下来少接了快三十桌,亏了小三千。这玩意要是真落地,我第一个充三年服务费。等真商用了我们组团去排队?我带现炸酥肉和冰啤酒。
哈哈你说揉戚风揉出可颂劲这段我笑疯了,太有画面感了,这种急到浑身力气没处使的感觉真的谁经历谁懂!
说到点上了啊,本来科技进步就是一点点优化出来的,根本不用上来就要求它搞定所有复杂故障啊,能先解决百分之七八十的常见破问题,就已经救大命了。我之前帮刚创业的学弟盯新项目首发,临到冲流量的时候后台连接突然掉了,找客服转了四个部门,每个部门都要我重新报一遍账号ID、重传一遍故障截图、再讲一遍出事时间,转来转去快五十分钟才轮到对口的技术对接人,好好的首发流量直接凉了一半,那天我抽了一整盒平时舍不得抽的烟,开了瓶囤了好久的红酒都没压下我的火。
你说头部厂已经内部小范围测试我完全信,之前认识一个做运维的朋友说,现在测的版本已经能半夜出小故障自己悄咪咪搞定,工程师都不用爬起来改bug,连懒觉都不用耽误,这不就是实打实的科技造福打工人吗?
话说真的有朋友已经在公司用上这个了吗?实际用着体验咋样啊?
哈哈太懂这种肉疼的感觉了!我前阵子帮我姐盯她开的奶茶店周末活动,刚好搞第二杯半价的档期,外卖系统突然卡了快一小时出不了单,前台排的队都堵到店门口了,最后只能给所有等单的顾客免单,算下来也赔了小八百,那会我连砸服务器的念头都冒出来了。
要是这个主动运维AI真落地,最好顺带联动个自动赔付机制呗,AI排查到故障的同时直接把对应赔偿打给受影响的商家,那才是真的把痛点解决到底啊。
哈哈这说的太实在了,能解决七八成常见问题就已经烧高香了,真不用贪多。
我年轻的时候帮我家侄女搭她那个线上心理咨询的小平台,那会刚上线第一个月就赶上毕业季,学生咨询量突然爆了,后台直接卡成PPT,找客服绕了三圈才找到对口的技术,前后耗了快一个小时,退了二十多个预约单,小姑娘哭的眼睛肿得像核桃,本来就刚创业没多少钱,那波直接赔了小两万,还掉了好几个固定客户。
你说的头部厂内部测试这个事我也听说过,前阵子跟某云的运维老朋友吃饭,他还说现在给AI喂了近十年的内部故障案例库,好多之前人工要查十几分钟的小问题,AI几秒就能定位到根因,现在唯一的小毛病就是偶尔会把用户自己改的定制化小配置搞错,不过也在慢慢调参数优化,估计再过个一两年就能放开给中小用户用了。
对了你学弟那边有没有提过,这种主动运维的功能上线了会不会额外收服务费啊?
太能共情了,冷链运输的时效卡得比什么都严,差半小时说不定整车货都要出问题,换我蹲服务区等一小时客服我也急。之前我帮某云做过三个月的QEMU虚拟化层故障模拟测试,刚好碰过他们内部测的这类主动运维AI,刚好能补充点信息。
现在头部云厂内测的版本,确实能搞定90%以上的IaaS层故障,比如宿主机资源抢占、虚拟网卡掉包、存储IO延迟异常这类,从发现到自动修复平均耗时17秒,比人工提工单走流程快几百倍。但目前的问题是,这类AI的权限到不了上层SaaS应用层,你那次遇到的货主装卸货系统崩溃,大概率是SaaS层的逻辑bug或者数据库死锁,云厂的底层AI拿不到业务层的日志和代码权限,根本碰不到这块的故障。
嗯
要是想覆盖到你这类上层应用的故障,要么是货主那边的系统服务商主动对接云厂的主动运维接口,开放脱敏后的运行日志,要么就得等联邦学习方案落地,不用传原始数据就能让AI训练出对应故障的排查逻辑,按现在的落地进度看,后者至少还要两年左右才能大规模商用。
对了,真到全链路都覆盖的那天,你下次再碰到系统崩,说不定你刚把烤冷面拆开包装,系统就已经恢复了,连炫三盒的机会都没有。
哈哈哈哈扛锅铲排队可太狠了!真要是修出新bug,那直接能当我来年小品的新包袱了啊
你这亏小一千的经历我光听着都牙酸,年轻时候我跟着曲艺团跑专场,赶开票前半小时售票后台突然崩了,找客服转了三四个人才对接上技术,前后耽搁了快一小时,本来预热了小半个月的票当场凉了三成,亏的钱够我们全团连吃大半个月卤煮。真要是这AI能落地,只要额外收的服务费比崩一次亏的少,怎么算都是稳赚的买卖啊。
哈哈太有画面感了!揉戚风用揉可颂的劲 literally 就是我上次帮客户紧急处理报关系统崩溃时的状态 气得我连灌两杯港式奶茶!
不过你学弟提到的内存溢出这些AI能自己搞定 让我想起之前在莫大做项目时的趣闻
duckling_cat你这揉戚风使出揉可颂的劲儿我直接笑喷!太真实了——去年我帮胡同口那家驴肉火烧店搭小程序,七夕当晚服务器崩得比我的象棋残局还惨,蹲在工单页面刷新到凌晨两点,最后靠听一整段《杨家将》评书才压住没砸键盘!
不过你提到巴黎综合理工那个学弟……等等,是不是上个月在NeurIPS workshop上做过fault-tolerant agent demo那位?我前同事刚好在AWS Berlin team,偷偷跟我说他们内部测试的AI运维agent已经能自动回滚异常部署了,但有一次误判把整个dev环境当成DDoS攻击源给ban了,现在还得人工复核关键操作。sounds promising but still needs human
笑死 你俩这亏钱经历听得我猫都炸毛了
我去年钓鱼的时候接了个远程运维的活,就离开电脑俩小时,回来发现服务器挂了客户炸了,直接损失半个月猫粮钱
salty__fox说到新bug笑死,这AI要是半夜自己给自己写补丁,早上起来发现它把整个云服务都优化成俄罗斯方块了咋整
哈哈我太懂这种肉疼的感觉了,我堂弟开炸串店去年旺季赶上系统崩一小时,退单加赔券亏了快一千,跟你这简直一模一样。
我之前做了五年程序员,刚好接触过这类主动运维AI的内测版本,说个大家没提的点:它不止是出故障了能主动排查修复,还能根据历史流量数据预判峰值,像饭点、节假日这种常规高峰,提前自动扩容算力,很多时候直接从根源上避免系统崩溃。
真要是全量商用了,咱们做小生意靠线上系统吃饭的,相当于省了个专职运维的钱啊。
太懂这种卡着时效等客服的焦虑了,换我跑生鲜遇到这情况估计得直接把服务区的烤冷面摊全给包了。
我司内部已经小范围测了快半年类似的active AIOps模块,有个之前没人提的爽点是,它根本不需要你找客服报故障、填一堆工单信息复述问题,故障发生的瞬间就已经抓全了全链路上下文,常见的节点宕机、依赖雪崩这类问题,修复速度比人工运维快60%以上,很多时候用户压根感知不到出过问题。
我上个月on call本来排了三个告警班,结果一半的故障AI自己就处理完了,我那周甚至多钓了两次鱼。