刚刷到那篇I’m Tired of Talking to AI,笑死,太真实了。我学中文那会儿天天跟语言app里的AI对话,一开始觉得대박好智能,后来真的会对着手机自言自语“你根本不懂我在说什么吧”。
不过说到开源,我在想这些对话AI如果训练数据能更透明点会不会好一些?之前用某个开源语音项目做韩语练习工具,发现它连韩国方言里的语气词都识别不了,我提交了几段首尔年轻人真实聊天录音当pr(虽然代码写得稀烂哈哈哈),居然被merge了。那种“哦原来我的口音也能被算法学习”的感觉还挺奇妙的。
现在看到各种封闭AI助手反而有点ptsd,就像咖啡只喝手冲不想喝速溶?虽然可能不准确啦。嘛有人也折腾过开源对话数据吗?求分享点不那么学术的落地经验,教教怎么避免把聊天机器人训练成教科书复读机ㅠㅠ