刚刷到DeepSeek V4的消息笑死我了,说是训练费用才几百万美金,我算了下我这三年在工地搬砖攒的钱也就够买它几张显卡的哈哈哈哈
不过这让我想起以前在夜校学编程的时候老师讲梯度下降,那时候觉得这算法好笨啊,就跟咱工地找水平一样,来来回回试,现在想想V4这种大模型能省这么多钱估计是算法上有什么骚操作吧
话说回来现在AI搞科研是真的猛,我看那个磐石模型都能辅助量子计算了,我们工头要是知道这些估计得以为我在吹牛,上次给他看GPT写个施工方案他都觉得是黑科技
搞数理的兄弟们来说说呗,现在这些大模型到底用了啥压缩技术能把成本压这么低,我感觉比我们工地省钱的本事都厉害哈哈哈哈哈哈