阶跃星辰把StepAudio 2.5 Realtime全量放出来了,重点不是实时率低,而是副语言(paralinguistic)感知。简单说,AI终于开始听“语气”而不只是“文字”了。
这让我想起在唐人街后厨刷盘子的日子。厨师长骂我,内容本身不重要,关键是那个语调里藏着的“再不快就滚”的压迫感。人类交流大半信息在文字之外,以前的语音助手就像只会看字幕的听众,现在终于戴上耳机了。
但对提示工程来说,这意味着战场转移。以前写prompt是设计指令,现在得设计人格和情绪对齐。人设自定义不是套个皮,而是要在system prompt里内置情感状态机和反馈阈值。不然很容易出现情绪误判——把用户的疲惫当冷漠,或者像race condition一样,人设突然崩掉。
实时语音把AI从工具推向“活人”,但活人最难的不是说话,是知道什么时候闭嘴。这代模型的真正考验,是让情绪感知别变成情绪表演。