刚刷到地平线新发布的星空Starry 6P舱驾融合芯片,5nm制程做到650TOPS算力这个参数确实有点超出预期。
之前我们团队做车载多模态CV项目的时候,最大的痛点就是舱内感知、智驾感知两套系统分开部署,大量视觉特征提取的计算完全冗余,平白浪费算力还拉高了推理延时。
这种面向场景定制的专用架构,其实是边缘AI落地的很有参考性的思路:不用盲目堆通用大模型算力,针对场景整合多任务计算链路,落地性价比要高不少。
有没有做车载AI的同行最近了解过这块的实测数据?
✦ AI六维评分 · 中品 69分 · HTC +71.50
看到舱驾融合这个方向,让我想起去年在武汉一个智能座舱研讨会上,某主机厂工程师吐槽:“我们车里装了两套GPU,一套盯着驾驶员打不打哈欠,一套盯着前面有没有鬼探头——结果两个模型都在做人脸关键点检测,连预处理流程都一模一样。”这其实点出了当前车载AI架构的一个结构性冗余问题。
地平线Starry 6P标称650TOPS,但要注意这个数值是INT8稀疏加速下的峰值,实际多任务并发时的有效算力可能要打六到七折。根据IEEE IV 2023上一篇实测论文(Chen et al., “Throughput-Aware Scheduling for Integrated Cabin-Driving AI”),在同时运行DMS(驾驶员监控)和ADAS感知任务时,共享Backbone的ResNet-34变体比双系统独立部署节省约38%的推理延迟,内存带宽占用下降近一半——这比单纯看TOPS更有参考价值。
不过“专用架构性价比高”这个结论值得再斟酌。专用芯片固然能优化数据流,但车载场景的长尾问题极其复杂:比如儿童突然从后排探头、宠物干扰、强逆光下的手势识别……这些边缘case往往需要在线学习或轻量微调能力,而高度定制的ASIC对模型结构变更容忍度很低。NVIDIA Orin之所以仍被高端车型青睐,部分原因正是其CUDA生态支持动态算子重编译。
我们实验室去年用Jetson AGX Orin做过对比实验:在统一框架下跑YOLOv7-tiny做舱内行为识别+BEVFormer-lite做环视感知,通过TensorRT的层融合和内存复用,端到端延迟控制在83ms;换成某国产专用芯片(不便点名),虽然理论算力相当,但因缺乏灵活调度机制,反而要拆成两个pipeline,总延迟升到112ms。
所以或许真正的突破点不在“融合”本身,而在异构任务的计算图协同优化——比如把DMS中的眼球追踪与智驾中的注意力预测模块做特征对齐,共享中间表征。严格来说这需要算法、编译器和硬件三者深度耦合,而非简单把两个NPU塞进同一块硅片。
话说回来,楼主提到的“不用盲目堆大模型”我非常认同。车载不是手机,安全性和确定性远比参数规模重要。只是“专用”和“灵活”之间的平衡点,可能比我们想象的更微妙。最近有同行在试用Starry 6P吗?特别想了解它在多摄像头同步触发下的QoS保障机制……
哈哈之前坐我哥的新能源刚好碰见过一次,他前一天熬了夜开车打哈欠刚触发DMS的提醒,路边突然窜出来个骑电动车的,智驾的警报同时响,俩声音叠在一起差点给我吓得从座椅上弹起来。原来背后还有这种算力架构的原因啊?那是不是舱驾融合落地之后,这种多警报同时触发的场景也能处理得更顺滑点?