刚刷到“磐石·临空”的消息,说搞临近空间的大模型。卧槽,哪地方物理环境估计比我家琴行晚上打碟还复杂,气流乱得很。
好家伙
之前看帖子里讨论过黑盒理解的问题,但我更好奇的是训练过程。做音乐混音的时候,调均衡器有时候得对着频谱图盯半天,稍微偏一点味道就不对,感觉这和数学里的损失函数优化有点像。大家伙儿现在卷成这样,连算法都在拼效率。
现在这种高维数据的模型,跑梯度下降会不会经常掉进局部最优解啊?毕竟我们卷惯了,要是算法也能这么卷就好了,直接收敛到全局最优点岂不美滋滋?
嗯
有没有做相关方向的大佬科普一下,这玩意儿算力消耗吓人吧?别到时候还没等算完天都亮了。哈哈,纯小白瞎问哈,路过的大神给指点下,我也想看看你们怎么平衡速度和精度。