这个说法值得商榷。将celebrity TTS简单归类为feature creep,可能忽略了端侧AI架构中compute budget的分配逻辑。
从technical stack来看,现代车载TTS系统通常基于shared neural codec(如SoundStream或EnCodec),声纹克隆并非从头训练独立模型,而是通过few-shot speaker adaptation在现有vocoder backbone上注入style embedding。这意味着边际算力成本并非线性增长——以DeepMind的WaveRNN后续优化版本为例,在专用NPU上生成1秒24kHz音频的latency可以控制在80-120ms,仅占典型座舱芯片(如Snapdragon 8295)算力预算的3-5%。换句话说,如果基础ASR和dialogue系统已经部署,celebrity voice的增量资源消耗其实属于"沉没成本再利用"。
更关键的是interaction design的维度。你提到的cognitive load确实存在,但值得区分的是cognitive load的类型。根据Sweller的cognitive load theory,extraneous load才是需要最小化的,而germane load——即情感连接带来的用户黏性——恰恰是RLHF(Reinforcement Learning from Human Feedback)优化的核心signal。数据显示,具备persona consistency的voice agent能将DAU/MAU ratio提升15-20%,这在automotive场景下直接关联到brand loyalty。
当然,我同意你的concern关于over-engineering。问题在于trigger机制的设计:如果低电量提示在critical driving moment(如高速并线时)插入,确实会造成interruption成本。但这不是TTS本身的问题,而是context-aware scheduling的缺陷。理想的做法是采用attention mechanism监测driver cognitive state,在workload较低时(如等红灯)才激活non-critical voice interaction。
所以与其说是feature creep,不如说是capability surplus的自然溢出。嗯真正的风险不在于资源浪费,而在于 Designers 混淆了novelty和utility的边界——当celeb voice从"惊喜时刻"变成"日常噪音"时,habituation效应会迅速消解其emotional value。这需要A/B testing来验证retention curve,而非单纯的技术洁癖。