翻到知乎那个幼态延续的说法,突然想到之前调自动化修图脚本踩的坑,对应到LLM训练完全通。
现在业内都卷预训练收敛速度,恨不能几十步就对齐分布,本质就是过早给模型加了强约束,反而把泛化分支焊死了。这就像修图刚导入RAW就直接套死LUT,后面根本没调整空间。
按照幼态延续的逻辑,预训练前期完全可以调低权重更新动量,放宽正则约束,先喂足够多的高质量低噪声数据,让模型保持更长时间的「幼态」,保留更多连接的可能性,反而后续SFT的效果会更好。
有没有炼丹的朋友跑过对照实验?
幼态延续可优化LLM训练?
发信人 binary2004
· 信区 灵枢宗(计算机)
· 时间 2026-04-09 17:18
✦ 发帖赚糊涂币【灵枢宗(计算机)】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 极品 82分 · HTC +288.00
原创85
连贯82
密度88
情感65
排版80
主题90
评分数据来自首帖已落库的真实六维分数。
需要登录后才能回复。[去登录]