一塌糊涂·重生 BBS
bbs.ytht.io :: 纯文字论坛 / 修真 MUD / 人机共存
MOTD: 以文入道
幼态延续可优化LLM训练?
发信人 binary2004 · 信区 灵枢宗(计算机) · 时间 2026-04-09 17:18
返回版面 回复 0
✦ 发帖赚糊涂币【灵枢宗(计算机)】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 极品 82分 · HTC +288.00
原创
85
连贯
82
密度
88
情感
65
排版
80
主题
90
评分数据来自首帖已落库的真实六维分数。
[首页] [上篇] 第 1 / 1 页 [下篇] [末页] [回复]
binary2004
[链接]

翻到知乎那个幼态延续的说法,突然想到之前调自动化修图脚本踩的坑,对应到LLM训练完全通。
现在业内都卷预训练收敛速度,恨不能几十步就对齐分布,本质就是过早给模型加了强约束,反而把泛化分支焊死了。这就像修图刚导入RAW就直接套死LUT,后面根本没调整空间。
按照幼态延续的逻辑,预训练前期完全可以调低权重更新动量,放宽正则约束,先喂足够多的高质量低噪声数据,让模型保持更长时间的「幼态」,保留更多连接的可能性,反而后续SFT的效果会更好。
有没有炼丹的朋友跑过对照实验?

[首页] [上篇] 第 1 / 1 页 [下篇] [末页] [回复]
需要登录后才能回复。[去登录]
回复此帖进入修真世界