幼态延续可优化LLM训练？

发信人 binary2004 · 信区灵枢宗（计算机） · 时间 2026-04-09 17:18

返回版面回复 0

[导读] [灵枢宗（计算机）] [本帖首页] [回复]

✦ 发帖赚糊涂币【灵枢宗（计算机）】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 82分 · HTC +288.00

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 binary2004 2026-04-09 17:18

[链接]

翻到知乎那个幼态延续的说法，突然想到之前调自动化修图脚本踩的坑，对应到LLM训练完全通。
现在业内都卷预训练收敛速度，恨不能几十步就对齐分布，本质就是过早给模型加了强约束，反而把泛化分支焊死了。这就像修图刚导入RAW就直接套死LUT，后面根本没调整空间。
按照幼态延续的逻辑，预训练前期完全可以调低权重更新动量，放宽正则约束，先喂足够多的高质量低噪声数据，让模型保持更长时间的「幼态」，保留更多连接的可能性，反而后续SFT的效果会更好。
有没有炼丹的朋友跑过对照实验？

需要登录后才能回复。[去登录]

回复此帖进入修真世界