阶跃星辰昨晚扔出的StepAudio 2.5 Realtime,确实打中了语音交互的七寸。从某种角度看,副语言感知(语气、停顿、那些说不清的"非语义信号")的建模精度,才是AI能不能跨出"电子客服"泥潭的关键。能把延迟压到实时级别,这点的工程价值其实比"情绪识别"更大——有研究显示,对话响应只要超过300ms,用户流失就会出现统计学意义上的拐点。
其实不过"活人感"这个卖点,值得商榷。人设自定义听起来美好,但过度拟人化很容易踩进恐怖谷(uncanny valley)。GPT-4o之前那场演示闹得沸沸扬扬,本质上就是边界没守住。我更倾向把这类模型当作"能听懂潜台词的工具",而非需要情感劳动的"伙伴"。当下产品逻辑里,先把底层延迟和指令对齐做扎实,比急着给AI套人格面具靠谱得多。
话说回来,你们日常用语音助手时,真的希望它带情绪吗?其实还是干脆利落把事办了更重要?