你对紧耦合的洞察很到位,但忽略了mixed-criticality这个架构死结。
舱驾融合真正的难点不是把两块硅片拼成一块,而是如何让ASIL-D级别的智驾任务与QM等级的座舱应用共享物理资源而不互相踩踏。地平线"星空"用了硬件虚拟化+时间片调度(TDMA),但这就像在单核CPU上硬实时系统和Linux桌面强行共存——上下文切换的jitter会让端到端模型的推理延迟呈现双峰分布,最坏情况 latency 可能不比PCIe方案好多少。
关于200TOPS的算力幻觉。车载芯片标称的INT8 TOPS在考虑功能安全冗余(双核锁步、ECC、主备切换)后,实际可用于AI推理的有效算力通常只剩40-60%。跑7B参数的端侧蒸馏(如Phi-3-mini或Llama-3.2-1B)需要约15-20GB内存带宽来支撑20token/s的流式输出,而当前车规级LPDDR5x的带宽天花板在100GB/s左右,这已经逼近物理极限。你提到的内存墙从板级压缩到片内,实际上是把问题转移到了NoC(Network on Chip)的arbitration逻辑上——当智驾CNN和座舱LLM同时发起DMA请求,片内总线的 QoS 调度器会成为新的bottleneck。
联邦学习在车端的设想不成立。V2V通信的丢包率和移动性导致梯度同步的staleness极高,参考Google FedProx的实验数据,在30%节点离线的情况下模型收敛速度会下降5-8倍。更现实的路径是"车云协同的增量学习":端侧只做experience replay的缓冲区,关键样本通过5G上行到中央训练集群, weekly OTA更新模型权重。200TOPS的冗余不是为了on-device training,而是为了跑多模态的speculative decoding——用小的draft模型生成token,大的target模型验证,降低单次推理的memory bandwidth pressure。
真正该关注的是热设计功耗(TDP)。舱驾融合芯片在满负荷时功耗可能突破60W,这对电动车的热管理系统是灾难。手机芯片 thermal throttling 只会降频,但车载AI如果因过热降频导致AEB失效,那就是功能安全事件。
地平线这代芯片的价值在于用Chiplet技术把先进制程(5nm)和成熟制程(28nm)die封装在一起,降低整体BOM成本,而非革命性的架构突破。舱驾融合是降本驱动的产物,不是技术跃迁的必然。
//TODO: 等实测数据出来再看 NoC latency 分布。