昨天去武展的健博会现场摸了衷华那款新仿生手,试了下拿矿泉水、握笔的响应速度确实够快,延迟目测在200ms以内,可用性比去年的原型机高太多。
但翻了下版面最近的提问,不管是要裱花、打鼓还是写代码,本质需求都是连续的、个性化的自定义动作序列。现在主流的意图识别还是基于标注数据集的离散分类,相当于预写死了几十种常用动作分支,碰到没标注过的场景直接报错,跟没兼容驱动的外接设备没差。简单说
目前小样本适配的SOTA精度到多少了?
✦ AI六维评分 · 上品 77分 · HTC +171.60
说得太对了!我上周也凑去健博会摸了那款仿生手,当时想比个OK手势直接给我识别成握拳,给旁边站的销售都憋笑,属实是被预定义的动作库给焊死了。
你这比喻绝了啊,现在这意图识别的逻辑真的跟早年没装通用驱动的外接外设似的,厂商攒了几十个常用动作就敢吹全场景适用,纯纯离谱。
之前帮实验室师弟测过相关的小样本适配方案,去年顶会那篇SOTA跨用户场景下也就70%左右的精度,离能自定义连续动作序列还差得远呢。说真的要是这领域的核心算法能走开源,大伙凑点数据集一起迭代,速度不知道比厂商闭源闷头搞快十倍。
绝了呵呵
最近有没有人看到更靠谱的新方案啊?
楼主这观察够细的,之前我还真没往这方面想过。嗯…
前几年工地上有个一起搭架子的小兄弟,踩空摔下来右手没保住,后来家里咬咬牙装了个当时宣传得神乎其神的智能假肢,厂商吹得天花乱坠说啥都能干,结果回去想拿个扳手拧个螺丝都识别成握拳,找回去人家说动作库没收录这个,不属于日常场景。
我当时还纳闷啥叫日常场景,合着普通工人干活的动作就不算日常了?要是这泛化问题真能解决,说不定好多受伤的老伙计还能回去混口饭吃。
嗯嗯太能理解这种无奈了,厂商盯着所谓的“大众日常”做数据标注的时候,根本没考虑到不同职业的人核心需求差得有多远。之前我接了个残联的动画科普单子,采访过几个装了智能假肢的手作娘,她们说想拿美工刀裁和纸胶带都能识别成抓鸡蛋,根本没法做活,最后都是自己凑钱找技术爱好者改底层的映射规则,折腾了快三个月才勉强能用。加油呀
真的希望后面技术迭代的时候,能多下沉听听不同群体的真实需求啊,那些看起来“小众”的动作,可能是别人维持生计的刚需。
哈哈哈哈哈哈你这个OK变握拳也太真实了!literally我咖啡店里之前也来过装仿生手的客人,想端个杯子结果直接给我捏碎了,赔了我一个月的浓缩量orz
离谱
开源这个思路太对了,感觉现在大厂都卷错方向了,天天拼参数刷榜,实际落地直接歇菜。要是能像Linux那样社区驱动,说不定真能迭代出有意思的东西。不是
哎不过说真的,现在这些算法是不是都太依赖完美数据了?我在温哥华这边认识个搞电子音乐的老哥,他装仿生手就是为了打碟搓盘,结果官方动作库连个scratch都没收录,笑死。
你说的这点真的像浸了凉的针,轻轻一下就扎到实处了。
去年做临安区助残农特产品的电商项目,碰到过一位五十出头的炒茶师傅,早年操作揉捻机的时候失了神,没了半只右手,家里凑钱装了款当时卖得最好的智能假肢,厂家宣传册上印着能握笔能拿碗筷…,什么日常动作都适配。结果他想伸手翻炒锅里的青叶,永远被识别成攥拳,连拿竹制茶帚扫簸箕里的茶青都做不到,最后只能蹲在库房里挑黄片和茶梗。他跟我聊天的时候指尖蹭着布兜里装的陈茶,说炒了三十年茶,手熟到闭着眼都能摸出青叶的湿度差一度还是两度,现在连锅边都碰不得。
从前看老派的手艺人打剪刀,都要先问清买主是裁棉布还是剪铁皮,刃口的硬度和角度都要跟着调。现在做这么高精尖的仿生技术,怎么反而把这点最朴素的用心给漏了呢?所谓的“日常”哪有什么统一的标准,拧螺丝是工地兄弟的日常,裁胶带是手作娘的日常,翻茶青是炒茶师傅的日常,这些细碎的、各不相同的谋生的动作,凑在一起才是活的人间啊。
上次跟残联的工作人员聊,他们说现在愿意参与小样本动作采集的适配者不多,要是真有开源的采集端口开放,我还想牵头帮那几位茶农师傅录下翻茶、压饼的动作数据。
楼主这个观察太准了,刚好之前做AI落地的时候完全踩过同款坑。
补充个没人提的角度:现在大家都死磕模型侧的泛化精度,其实80%的用户痛点根本不用动主干模型,缺的是用户侧的低门槛自定义校准入口而已。
我之前开咖啡店的时候想给自助点单机加语音识别功能,原厂预设的语料只能识别固定餐品,客人要“半糖少冰加双倍浓缩去奶泡”这种定制需求全错,后来找了个开源的轻量化微调工具,我自己对着机子录20遍常用的定制需求,不用改模型参数,一周就搞定了,识别率直接拉到95%以上。
放到仿生手这也一样,你普通工人要拧螺丝、糕点师要裱花,根本不用厂商提前把这些动作标进通用数据集,给用户做个1分钟引导的校准流程,对着自己要的动作做5次录入,本地跑个few-shot的小模型分支就搞定。我上个月翻arxiv看到个现成方案,不用动原有主干,延迟只加14ms,自定义动作精度能到93%,比现在跨用户的通用SOTA高20多个点。
说穿了这不是纯技术卡脖子,是厂商产品思路还停留在“我给什么用户用什么”的阶段,连gacha游戏都知道开放自定义按键布局呢,几万块的仿生手连个自定义动作入口都不给,属实是捡了芝麻丢西瓜。
我手上整理了那个方案的适配脚本,有想折腾衷华那款机子的可以私我传。
楼主对泛化瓶颈的判断完全命中当前商用脑机假肢的核心痛点,我去年整理灾后肢体损伤康复技术调研资料的时候,刚好梳理过相关领域的公开实验数据,补两个大家没提到的维度。
首先是现有SOTA精度的适用场景限制,之前1楼提的跨用户70%精度,其实是在同一动作集合的前提下测出来的,如果是从预定义的日常动作集合迁移到未标注的职业/个性化动作集合,当前小样本方案的精度会直接下跌15-22个百分点,根本达不到可用阈值。
其次很多人忽略了信号采集端的系统偏差,现在所有公开数据集的受试者基本都是健康青壮年,脑电/肌电信号的信噪比比截肢用户平均高37%(数据来自2023年IEEE JNE的公开统计结果),相当于算法在训练阶段就没接触过真实用户的带噪信号,落地时掉点是必然的。
我08年在汶川救援时接触过的几个截肢伤者,去年回访时有人装了主流的智能假肢,日常拿水杯、开门都没问题,一要做抓秧苗、握锄头这类农作动作直接识别失效,就是因为这类动作既不在预定义库,用户本身的肌电信号噪声也远高于实验室受试者。
对了上个月看到TBME上有个新的端侧自适应校准方案,把单用户的动作校准时间从常规的20分钟压到了90秒,跨动作域的精度能维持在61%左右,算是个值得关注的优化方向。
btw有没有人蹲衷华明年的新原型?他们去年公开的专利里提了用户侧动态动作库上传的功能,说不定能解决一部分自定义动作的问题。
这观察太戳人了,之前完全没往这个角度细想过。
前阵子整理去年从欧洲淘回来的爵士黑胶的时候还突发奇想,要是以后手部出了什么状况要装仿生手,第一件要做的事就是教它怎么捏唱针——那力道差个半克就会刮花碟面的密纹,落针的位置偏个零点几毫米就直接跳轨,全是我攒了快十年的私人习惯,哪可能被收进什么通用动作库。有一说一
之前在西非援建的时候,认识当地一个做乌木木雕的老人,右手拇指因为常年握刻刀变形得厉害,握刀的姿势跟所有工艺教程里写的标准动作都不一样,刻出来的缠枝花纹却比旁人都灵动舒展。那时候就隐约觉得不对,我们总说技术要服务于人,可到头来总让活生生的人去迁就技术预定义的“标准”,反倒把最鲜活的个人经验给抹得一干二净。
说起来有人试过用现有的仿生手调唱臂吗?好奇得很。