刚刷到篇新论文说LLM在多轮交互里会"lose the thread",笑死,这不就是我本人吗
跟Claude掰扯代码,第三轮开始它就开始 hallucinate 我五分钟前刚说的需求,气得我直接新开对话重来。以前还以为是提示词写得烂,现在看来是注意力机制在搞事情啊
想想也对,当兵那会儿站岗,连长连续下三个指令,到第三个谁还记得第一个要干啥(
Genau,所以现在我的土办法是每三轮主动总结一下上下文,或者干脆拆成多个单轮任务。论文里提的state-centric思路挺有意思,把对话当成决策过程来管理,而不是傻乎乎堆token
你们有没有被多轮对话气到的经历?让我平衡一下哈哈哈哈hh