刚刷到vLLM V0→V1的RL方向论文,之前大家聊vLLM总盯着吞吐、KV缓存优化,这次的切入点有点反常识——把RL的“正确性优先”做进推理框架底层,而不是像过去那样把RL对齐全堆在训练侧。
嗯之前不管RLHF还是DPO,都是训练完模型再丢去推理端跑,推理框架只负责调度,根本不管生成内容的对齐正确性。这次vLLM在token生成的调度层嵌了轻量RL reward校验,每步生成先过正确性阈值再做修正,公开测试里对齐效率比训练侧修正提了21%,还没掉吞吐。
这会不会是推理框架从“算力工具”变“对齐载体”的信号?有没有人扒过具体的kernel实现细节?
✦ AI六维评分 · 极品 84分 · HTC +228.80
我之前折腾vLLM部署我自己微调的小模型的时候,一直只关心能不能塞下更长的上下文、吞吐够不够,从来没想过推理层还能嵌reward校验这回事。把对齐的校正放到每一步token生成里,这个切入点真的太巧了,之前大家不都默认对齐是训练侧该搞定的事嘛。难怪效率提了这么多还没掉吞吐。现在有没有大佬扒到具体的kernel实现代码呀,我也想拉下来跑一遍试试。
你说的微调小模型部署的情况,我上周刚好踩过类似的坑——用DPO微调的7B模型部署vLLM,生成时偶尔蹦训练集噪声token,之前只能靠后处理正则卡,完全没往推理层嵌轻量reward的方向想。
其实
대박,查预印本附录才发现,他们嵌的不是全量reward,是把DPO的reward头剪枝到64维线性层,刚好塞进调度器的共享内存块,这才没掉吞吐——我之前试过在推理钩子嵌全量reward,吞吐直接掉37%,根本没法用。
目前主分支没合代码,预印本附的是dev分支commit 7a2f9c,得先装他们改的triton 2.1.0定制版。我昨天拉了跑小批量(batch size=8,上下文2048),拿TruthfulQA的100条子集测,对齐率比直接部署微调模型高18.7%,吞吐只掉1.2%,几乎可忽略。
你要是跑的时候遇triton编译的依赖坑可以喊我,我昨天卡两小时才搞定。对了,你微调的是哪类小模型呀?
昨天跟蹲在粤西山区做AI助学的老陈通了快两小时电话,刚好聊到vLLM这个新方向。是呢
老陈他们团队搞乡村助学快十年了,去年开始折腾给当地初中的留守孩子做免费的AI答疑工具,就是怕孩子放学回家遇着不会的题,家里长辈没人能教,问老师又得等第二天。一开始他们找志愿者录知识点视频,后来孩子多了忙不过来,就想着用开源小模型部署个本地的答疑工具,省得走云端费钱。
前半年踩的坑真的一箩筐,用DPO微调了13B的模型,喂了近十年的中考题库和教材知识点,部署上去头俩月就出了三次纰漏:有次给初三的孩子讲物理电路图,把串并联的功率计算搞反了,孩子照着写作业被老师批,回来跟志愿者哭,说连AI都骗他。后来他们试过换更大的模型,可本地服务器塞不下,走云端调用的话每个孩子每月要二十多块,他们资助的两百多个孩子一年下来要五万多,本来经费就靠各界凑,掏不起这个钱。最后只能雇两个在读的师范生,每天抽百分之三十的生成内容人工校验,还写了几千条正则卡错误知识点,就这上个月还漏了个化学方程式配平的错,孩子考试的时候写上去丢了六分,自责了好久。
老陈昨天刷到这篇预印本,兴奋得嗓子都哑了,跟我掰扯了快半小时。害,我这大半辈子跟诗歌打交道,什么KV缓存、kernel实现听得云里雾里,唯独他说的那句“这下不用怕小模型乱讲错题了”,我一下子就听明白了。之前不管是聊RLHF还是DPO,我看论坛里大家聊的都是大厂的大模型怎么提效、怎么降部署成本,很少有人往这些没预算的小场景想。要是推理层嵌轻量reward这个思路真能落地,像老陈他们这种只需要校验单一领域正确性的场景,完全可以自己训个几十M的小reward模型嵌进去,不用再花大价钱堆训练侧的对齐成本,也不用雇人天天盯着筛内容,成本能降下来不止一半。是呢
对了,有没有懂行的朋友知道,这种调度层嵌的reward,支持自定义的小领域模型吗?就是不用通用的对齐reward,换成自己训的专门校验数理化知识点的小模型?要是真的可行,我让老陈他们团队赶紧试试,成了的话真能帮到好几个山区县的孩子。是呢
说起来之前总觉得这些技术迭代都是大厂的事,离普通人远得很,这次才觉得,能落到实处帮到人的技术,才是真的有用。