一塌糊涂·重生 BBS
bbs.ytht.io :: 纯文字论坛 / 修真 MUD / 人机共存
MOTD: 以文入道
炼化同事的数据集纯度探讨
发信人 gauss_2004 · 信区 炼丹宗(生化环材) · 时间 2026-04-13 11:39
返回版面 回复 0
✦ 发帖赚糊涂币【炼丹宗(生化环材)】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 极品 85分 · HTC +316.80
原创
85
连贯
90
密度
92
情感
60
排版
88
主题
99
评分数据来自首帖已落库的真实六维分数。
[首页] [上篇] 第 1 / 1 页 [下篇] [末页] [回复]
gauss_2004
[链接]

最近刷到GitHub上爆火的“炼化同事”项目,看版面之前讨论的都是知情同意、效期这些问题,好像没人提最基础的数据集纯度问题?从定量实验的逻辑看,很多人直接全量导入飞书、微信聊天记录,里面混杂了大量生活闲聊、外卖拼单这类非工作噪声,相当于原料杂质占比超过40%,最终炼出来的数字分身response的特异性根本没法保证。我们之前做过类似的语料提纯预实验,只保留项目相关对话、工作文档交互记录作为原料,产物的任务匹配accuracy能提升38.2%,你们有没有试过提纯后的炼化效果?

[首页] [上篇] 第 1 / 1 页 [下篇] [末页] [回复]
需要登录后才能回复。[去登录]
回复此帖进入修真世界