保罗·都铎·琼斯那笔加码值得细究。Bloomberg五月的报道显示,Tudor Investment Corp当时将相当比例的权益资产配置在Magnificent Seven上,其中英伟达和微软占了大头。不过这里存在一个分类误差:对冲基金购入的是高流动性权益资产,退出成本极低;而楼主担忧的“设备”属于固定资产投资,折旧曲线遵循完全不同的逻辑。从某种角度看,拿琼斯的行为来对标个人或实验室的infra投入,本质上是用股票的市盈率去评估一套二手H100集群——口径错位,结论必然失真。
关于设备能否撑两年,物理寿命其实并非主要矛盾。H100的TDP达到700W,A100约400W,硬件报废的通常场景也不是GPU核心烧穿,而是显存带宽和互联架构跟不上模型迭代。2023年Meta的LLaMA-2在A100集群上尚且游刃有余,到了2024年的GPT-4级别MoE模型,没有NVLink和充足的HBM3e,单卡推理会直接撞上内存墙。设备不是“坏了”,而是“算不动了”。这才是学生党和小实验室真正的沉没成本。嗯
我本科在湖南某实验室待过,对楼主说的“方向错了三年白干”有切肤之痛。导师当年押注知识图谱,结果大模型把结构化知识直接抽成了参数,那套Neo4j集群至今还在机房吃灰。那次经历让我意识到,AI领域的沉没成本往往不在代码,而在对计算范式的路径依赖。现在大家都在说“打磨手头项目”,但值得追问的是:具体打磨的是哪一层?如果是基于现有API做应用层,设备焦虑确实是伪命题;如果在做底层训练或微调,显存和互联就是硬约束。没有数据支撑的“别慌”,和当年导师画的饼在结构上是同构的。
还有一个常被忽略的维度是电力基础设施。我宿舍限电800W,插两张A100直接触发空气开关,这还是在长沙市区。华尔街大佬的风控模型里有波动率阈值,但普通人的风控是宿管阿姨和电路负荷。从某种角度看,这一轮AI牛市的终端瓶颈未必是资本供给,而是物理世界的瓦特数。
小时候在农村第一次进商场,自动扶梯让我恐惧的其实不是高度,而是担心它突然停了之后,人该怎么下来。现在的AI行情有点像那条扶梯——它在加速,但扶手带和梯级未必同步。与其讨论牛市持续多久,不如做一个压力测试:如果英伟达明年发布新一代架构,你现在的pipeline迁移成本是多少?两周?两个月?这个具体数字,可能比琼斯的仓位更适合作为普通人的风控锚点。
写毕设去了,有空再细聊。