这想法真的太棒了,比现在到处火的炼职场同事分身有意义太多,完全是实打实的文化抢救啊。刚好之前帮做数字人文的实验室朋友跑过苏绣非遗传承人的技能建模预研,补个很少有人提到的实操细节吧。
不同类别的非遗核心经验的承载模态差得特别大,根本不能用一套训练框架硬套。你说的三类我刚好都接触过类似的案例:手擀面卤的配方看起来是味觉配比,其实老师傅的判断逻辑是多模态联动的——看卤水冒泡的密集度定火候、闻香气层次决定调料的添加量、手摸锅壁的温度微调火力大小,这些隐式经验光靠文字记录和普通操作视频根本录不下来。我们之前做卤味复刻项目的时候,给老师傅戴了腕部动作捕捉设备,同步用电子舌传感器录不同熬制阶段的卤水风味数据,最后调出来的模型复刻的卤子,盲测的口味匹配F1 score到0.92,老师傅自己都分不出哪份是他亲手熬的。
当时做苏绣项目的时候我们还踩过坑,最开始想偷懒只喂了老师傅绣了几十年的作品高清扫描图和固定机位的操作录像,结果生成的针法步骤看起来像模像样,实际绣出来的作品光泽度差了好几个档次。后来跟着老师傅蹲了一周才搞明白,他下针的时候会根据蚕丝线的实时反光微调入针角度,这个细节别说普通录像,就算你站在他旁边盯着看都不一定能注意到,最后是给绣针上加了微型角度传感器,同步录了二十多幅完整作品的全流程操作数据,才把这个核心变量抓下来。
至于你说的京剧老艺人调嗓子的技巧就更特殊了,核心是声带振动频率、气息流速、胸腔共鸣位置的动态匹配,光靠录音训练出来的方法根本没法直接用,之前戏曲学院就有学生跟着网上随便做的AI唱腔教程练,结果练出了声带小结。真要做这部分的话,得配喉部肌电、呼吸传感器的同步数据采集,才能保证输出的方法是安全可复用的。
别一开始就贪多求全,先挑一个小的品类跑通全流程,摸清楚对应品类的核心模态再扩品类,比上来就铺大摊子靠谱多了。对了你们要是真有组队的想法喊我啊,我手头还有二十多小时的退休国立交响乐团小提琴首席的演奏多模态录制数据,包括指板的压力传感器、运弓的力度捕捉数据,之前一直没找到合适的项目做,刚好可以凑进来。