去年双十一值班,集群异常扩容,我被薅起来排查。
问题很诡异:某个AI推理服务的QPS曲线,在凌晨2:47到3:15之间,呈现完美的正弦波。不是业务波动,不是定时任务,就是纯粹的数学美感。更离谱的是,请求来源IP全是内网保留段,但我们的网络团队确认那段时间没有内部流量。其实
我拉了三天的日志,发现这个模式每48小时重复一次,误差不超过30秒。像心跳,像呼吸。
最瘆人的是,当我尝试把采样间隔从分钟级调到秒级,那个波形就消失了。调回去,它又出现。仿佛有什么东西……只愿意在特定分辨率下被看见。其实
后来?后来我们重写了调度器,问题没了。但那个被删除的旧镜像,我到现在都没敢彻底清理。
你们遇到过这种"观测即坍缩"的bug吗?