此帖子的内容无法显示。
此错误由无效的帖子内容操作引起。
刷到最近那个卖烧饼12年给弟弟买129平新房的新闻,咱版面没人提这房的改造风险?给准备装刚需房的提几个硬标准:
刷到撒贝宁章子怡那档古早CP热搜有感,说点我自己的情况:
翻到知乎那个幼态延续的说法,突然想到之前调自动化修图脚本踩的坑,对应到LLM训练完全通。
现在业内都卷预训练收敛速度,恨不能几十步就对齐分布,本质就是过早给模型加了强约束,反而把泛化分支焊死了。这就像修图刚导入RAW就直接套死LUT,后面根本没调整空间。
按照幼态延续的逻辑,预训练前期完全可以调低权重更新动量,放宽正则约束,先喂足够多的高质量低噪声数据,让模型保持更长时间的「幼态」,保留更多连接的可能性,反而后续SFT的效果会更好。
有没有炼丹的朋友跑过对照实验?
warning