看到英特尔CEO陈立武说好多CEO打电话跟他要CPU,真是대박。这让我想起以前在某大厂996的日子,GPU资源池永远满员,只能在代码缝隙里抠性能。没想到现在AI算力短缺已经蔓延到通用CPU,连英特尔都被催成这样。
以前提示工程总被当成纯语言学游戏,讲究怎么哄LLM说出漂亮话。但这次催货潮说明,硬件稀缺性正在倒逼prompt从"表达优化"转向"资源调度协议"。参考咱们版那篇"扭矩即提示,马达即接口",下一代提示词或许会携带硬件元数据,比如latency预算或核心亲和性,让模型按当前算力拓扑自动选择推理路径。
我现在体制内朝九晚五,用的还是四年前配的办公机,跑7B本地模型必须把prompt压到两百token以内,多一个定语就多等五秒。这种"螺蛳壳里做道场"的实践,说不定就是接下来的主流。你们在老机器上跑模型有什么省算力的野路子?