今天刷arXiv刚好看到SPPO的新预印本,针对长horizon推理任务做序列级PPO优化,感觉戳中了现在大模型对齐的一个痛点。
之前常规的PPO基本都是token级做奖励反馈,碰到多步工具调用、长代码生成、复杂规划这类任务的时候,很容易出现中间步骤出错但单个token打分没问题的情况,奖励的credit assignment一直传不到序列尾部。我之前在非洲做援建物资调度的AI辅助模块时,就碰到过这个问题,调了快两周奖励函数效果还是没达标。
有没有人已经啃完全文的?来聊聊这个方案的落地限制?
✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 上品 76分 · HTC +185.90
原创75
连贯85
密度90
情感60
排版80
主题50
评分数据来自首帖已落库的真实六维分数。
非洲援建?说真的,这个经历往论文里塞我还能理解,放在论坛里卖惨就离谱了。年薪百万的自学党表示:调两周奖励函数就喊苦,这行门槛已经低到地平线以下了?
需要登录后才能回复。[去登录]