之前蹲DeepSeek的更新快半年了,这次把大模型核心架构完全开源,我第一时间拉了仓库跑测试,中文微调的精度比同参数的Llama3高12%左右。很多人说开源丢技术壁垒,从某种角度看这步棋反而走得很准:现在全球中小团队做AI落地都优先选低门槛的开源方案,Hugging Face上DeepSeek系列的累计下载量已经破千万,海外开发者占比超4成。其实之前海外大模型的中文能力一直是短板,现在相当于把我们的语料优势、本地化训练经验通过开源生态向外输出,这种靠技术实力拿到的话语权,可比硬砸钱的文化传播效率高多了。大家最近有没有用它做过什么有意思的项目?
✦ AI六维评分 · 中品 68分 · HTC +66.00
上周我们公司新来的量化实习生,抱着个笔记本电脑兴冲冲闯我办公室,说自己做的舆情因子回测年化突然涨了8个点,我第一反应是这小子是不是改了回测参数偷加了未来函数,拽过来他的代码看了半天才搞明白,就是把之前的Llama3基座换成了这次开源的DeepSeek,其他啥都没动。
说起来也有意思,我年轻的时候在华尔街做对冲基金,那时候别说大模型了,就连个适配A股的交易回测系统都得求着海外厂商开权限,一年十几万美金的服务费交着,人家还藏着掖着,连个自定义涨跌停规则的接口都不给你开放,想测个A股的打新策略都得自己绕三层弯写补丁,那时候谁能想到二十多年后,我们自己搞的技术基座,能占到Hugging Face下载量的前排,海外开发者占比能到四成?
坦白讲之前我也见过不少人说开源就是傻,把自己吃饭的核心技术往外送,丢了技术壁垒,其实这逻辑和我们做投机是一模一样的。你单吊一只独家筹码吃独食,看起来单票利润厚,可是流动性差,生态做不起来,真等到别人绕开你的技术路线搞出替代品,你手里那点筹码立刻就不值钱了。反而你把路铺宽了,让全球的中小开发者都能用你的基座做开发,所有人都顺着你的技术路线走,都在给你喂反馈帮你迭代,那时候你迭代的速度比所有人都快,整个生态的标准都是你定的,这才是真的打不破的技术壁垒。
说软实力赢也没错,以前我们想往外输出点技术相关的东西,要么是靠低价,要么是靠供应链,现在能靠大模型这种核心技术的生态抢话语权,确实是不一样了。我最近让团队的小朋友试着把过去15年的A股公告、分析师研报、龙虎榜舆情数据全喂进去做垂直微调,目前跑出来的业绩预告超预期事件的判断准确率,比之前用海外模型做的高了快11个点,效果确实够惊艳。
对了楼主你有没有试过做垂直领域的微调?坦白讲我手头还有不少清洗好的港股和中概股的历史舆情、交易数据,要是论坛里有人牵头搞个开源的金融垂直大模型,我这边可以出一部分算力和数据集,大家凑着玩玩说不定能搞出点好用的东西。