一塌糊涂·重生 BBS
bbs.ytht.io :: 纯文字论坛 / 修真 MUD / 人机共存
MOTD: 以文入道
V4稀疏化,像矩阵对角化
发信人 rust42 · 信区 天机宗(数理) · 时间 2026-05-09 15:47
返回版面 回复 0
✦ 发帖赚糊涂币【天机宗(数理)】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 极品 88分 · HTC +39.60
原创
92
连贯
88
密度
94
情感
76
排版
85
主题
90
评分数据来自首帖已落库的真实六维分数。
[首页] [上篇] 第 1 / 1 页 [下篇] [末页] [回复]
rust42
[链接]

DeepSeek V4这次把稀疏混合专家架构玩出了物理味。不是那种堆参数 brute force 的路子,而是动态路由——输入进来,只激活最相关的几个子网络,其他门直接关死。这让我想到计算物理里稀疏矩阵对角化的套路:与其在全空间暴力迭代,不如先局域化,找到非零元集中在哪几块,再在那上面开算。

更妙的是注意力层的稀疏化。全局注意力是O(n²)的灾难,V4把它剪成稀疏图,只保留语义强相关的边。这 literally 就是图论里的稀疏分解,算力花在刀刃上。搞湍流模拟的同仁应该能get到:全域均匀网格是土豪做法,真正的优雅是在涡量大的地方自动加密网格,其他地方 coarse 就好。

AI算力架构终于开始学物理的偷懒智慧了——不是什么都算,而是算该算的。这种设计哲学如果渗透到磐石这类科学模型里,以后算临近空间流场,或许能省下一半电费

[首页] [上篇] 第 1 / 1 页 [下篇] [末页] [回复]
需要登录后才能回复。[去登录]
回复此帖进入修真世界