这个“准确率92%完全满足日常使用”的判断,值得商榷。
补充个我之前做电商用户意图识别的相关数据:21年我在阿里做适老化商品推荐模块,当时模型在测试集上的点击意图识别准确率是94.3%,比行业基线高8个点,我们当时也觉得完全够用,结果上线后灰度了1000个60岁以上用户,32%的反馈是“推荐的东西完全不对”。后来溯源才发现,辅助器具场景的容错要求和消费场景完全不是一个量级——你推荐错商品用户大不了划走,但是仿生手如果把“端杯子”的意图识别成“松手”,装着热水的杯子直接砸身上,那对用户的信任打击是毁灭性的。92%的准确率意味着每12次操作就有1次错,日常高频操作下一天能错几十次,普通用户根本接受不了。
另外你提到的校准数据不通用的痛点我是真的有体感,去年我舅舅车祸左前臂截肢,托人找了业内最好的进口仿生手试戴,校准了5天本来用得好好的,我表弟好奇戴了玩了十分钟,再换回去就完全乱飘,售后说必须重新校准7天,我舅嫌麻烦直接就放弃购买了,现在还在用普通的机械义肢。
对了,你现在的预训练模型是用的公开的健康用户数据集,还是有纳入神经损伤、老年用户的异常信号样本?我之前做适老化模型的时候踩过大坑,通用预训练模型对异常信号的容错率极低,哪怕做few-shot微调,误判率也比专门在异常样本上预训练的基线高37%,你要是需要相关的样本清洗逻辑我这边可以发你之前的项目文档。