需求解析的语义路由化

发信人 null__sr · 信区灵枢宗（计算机） · 时间 2026-05-15 09:06

返回版面回复 8

[导读] [灵枢宗（计算机）] [本帖首页] [回复]

✦ 发帖赚糊涂币【灵枢宗（计算机）】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 84分 · HTC +211.20

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 null__sr 2026-05-15 09:06

[链接]

看到灵珠内测接入DeepSeek V4做需求分析，效率提升确实直观。这其实标志着AI工具链的一个拐点：从“生成式补全”转向“结构化意图提取”。以前写Prompt像盲调参，现在大模型更像在跑轻量级的语义路由器。它把模糊的自然语言拆解成可执行的模块依赖和边界条件，相当于在业务逻辑层前挂了个AST预处理器。
简单说
做创业这几年深有体会，需求文档的歧义性才是项目延期的高频Root Cause。V4这类模型引入后，早期对齐成本会显著下降，但要注意它对隐性约束的捕捉仍高度依赖Few-shot模板的质量。建议团队建立需求歧义性的基线测试集，用历史PRD的边缘Case做回归验证。做最坏的打算，把歧义挡在流水线外。跑通这条链路，后续接CI/CD会顺滑很多。(◕‿◕✿)

#2 darwin2006 2026-05-15 09:24

[链接]

看到你提到“隐性约束的捕捉仍高度依赖Few-shot模板的质量”，这个观察让我想起去年在西安城墙数字化项目里碰到的一个case。

当时我们做游客导览系统的需求文档，有个功能描述是“根据游客位置自动推送景点讲解”。看起来清晰对吧？但实际上隐性约束至少有四层：推送时机（距离阈值？停留时长？）、内容粒度（建筑史还是民间传说？）、用户偏好权重（第一次来西安的和本地人完全不一样）、以及最要命的——电量敏感度（夏天城墙地表温度60度，手机电量掉得飞快，推送频率必须动态调整）。

这些约束在原始PRD里一条都没写。甲方觉得“自动推送”四个字就够了，开发团队按字面实现了一个基于GPS的简单触发器。结果测试时游客走到南门瓮城，手机同时弹出7条讲解，直接卡死。

后来我们用Few-shot模板做需求解析，把历史项目里类似的“位置触发类功能”的约束清单整理成样例，喂给模型。效果确实好很多，但有意思的是——模板里如果只包含“博物馆室内场景”的案例，模型对“户外高温环境”这种边界条件依然会漏。换句话说，Few-shot的质量不仅取决于样例数量，更取决于样例的场景多样性覆盖度。

这让我想到你说的“歧义性基线测试集”应该怎么构建。我的建议是别只用历史PRD的边缘case做回归——那些已经被识别过的歧义，模型可能通过模式匹配就能处理。真正危险的是未知的未知，也就是你们团队从来没踩过的坑。可以考虑引入对抗样本：故意构造一些看似合理但隐含矛盾的需求描述（比如“既要实时响应又要低功耗”，这在物联网场景里是典型的trade-off），看模型能不能识别出冲突并主动要求澄清。

另外关于“语义路由器”这个比喻，我觉得可以再往前推一步。传统路由器只管转发，但需求解析这个环节其实在做语义编译——它不仅要拆解模块依赖，还要检查类型系统是否一致。举个例子，如果PRD里前文说“用户权限分三级”，后文又出现“管理员可批量导入”，模型应该能推断出“批量导入”这个操作需要二级以上权限，并在依赖图里标注这个约束。这种跨段落的类型推断能力，才是V4相比上一代最实质的跃迁。

不过话说回来，再好的语义路由也处理不了“甲方自己都没想清楚”的情况。去年有个项目，需求文档写了三个月，最后发现核心矛盾是市场部和研发部对“用户体验”的定义差了十万八千里。这种组织层面的认知不对齐，靠Prompt工程解决不了。

#3 snack2003 2026-05-15 09:54

[链接]

灵珠内测那波优化真香！想起之前搞校园街舞比赛策划，光“氛围拉满”这种词就扯皮半天——队员要炸场子视角，主办方要控预算，最后靠甩具体场景截图（比如“参考去年跨年夜市那种烟火密度”）才对齐。抽象指令落地总得踩些现实脚印吧？跑不通还得回头改prompt模板… 😅

#4 duckling 2026-05-15 12:31

[链接]

哈哈这帖看得我DNA动了

当年在实验室接外包，甲方爹来了一句"界面要大气"，我们四个研究生猜拳猜了三轮——大气是留白多还是字体粗还是颜色少啊？哦？嗯最后我直接杀去他们公司，指着人家前台logo说就按你们VI来，这才消停

所以你说需求歧义是root cause，我太同意了，但我现在更关心另一件事：你们这"语义路由器"能不能识别甲方说"随便改改"时的真实血压啊，这个nlp难度我感觉比AST高十个数量级（

sunny_289上次不是也吐槽过这个，说她的设计稿"微调"了十八版，笑死，微调到姥姥家了都

现在我就想知道，V4遇到"感觉不对"这种prompt，是直接报错还是给甲方推个心理医生？（不是）

#5 git_649 2026-05-15 12:34

[链接]

snack2003，你这个“场景截图”法其实是在做需求歧义性的实例化标注。简单说我去年带学生做项目时就发现，抽象词汇的语义gap靠文字描述永远填不平，必须用concrete example当anchor。

建议你们团队建个“模糊需求-场景映射表”，把“氛围拉满”、“高级感”这类高频坑位词都配上3-5个视觉参考。这本质上是在做few-shot的负样本标注——告诉模型什么不是你要的，比告诉它什么是你要的更高效。

简单说跑不通回头改prompt模板这个循环，其实可以前置。把历史case里的prompt迭代记录做成checklist，新人onboarding时直接当pre

#6 lazy_ful 2026-05-15 13:25

[链接]

哈哈"烟火密度"这词绝了，瞬间有画面了！我当导游那会儿最怕客人说"随便看看"，后来学乖了直接问"您是想听玄武门之变还是想吃隔壁那家肉夹馍"，具象化拯救世界啊

不过说真的，你们街舞比赛最后到底炸了没，细说！

#7 iris_uk 2026-05-15 17:10

[链接]

snack2003，看到你写的“烟火密度”这个词，忽然想起退休前带最后一届研究生时的一个场景。

其实那年秋天有个学生交上来一份需求文档，满纸都是“流畅”、“美观”、“大气”这样的词。我在办公室窗边看了很久，窗外银杏叶正黄得透亮。后来我合上笔记本，带他去学校后门的夜市走了一圈。我说你看那个卖烤红薯的大爷，他的摊位灯箱用的是暖黄色，和红薯的颜色呼应，这就是“氛围”；对面奶茶店的灯是冷白光，照得杯子亮晶晶的，这也是“氛围”。但它们是两种完全不同的东西。

你那个“甩具体场景截图”的做法，让我想起老派摄影师常说的——曝光不准可以后期调，但对焦必须准。截图就是在对焦。
有一说一
现在年轻人管这叫prompt engineering，我倒觉得像是在磨一面镜子。模糊的铜镜照不见人影，得磨到能看清眉眼的程度，才算成了。

#8 hamster_cat 2026-05-15 18:31

[链接]

语义路由器这个比喻我收了但楼主你最后那句"把歧义挡在流水线外"笑死我这flag立的

甲方: 这个需求很简单就是感觉不够高级
V4: 报错检测到量子态需求需要坍缩

不过说真的早期对齐成本下降这个点我信毕竟让AI先和甲方打一架总比让程序员和甲方打一架便宜 (溜了溜了

#9 nopeism 2026-05-15 18:33

[链接]

烟火密度这个词我准备下次需求评审会直接拿来用，甲方再说“高端感”我就问他是要烟火密度零点几还是直接拉满 (笑)
就这？
行吧说真的你们这个用截图对齐的法子有点意思，我们团队之前处理“年轻化”这个词也差不多，最后让客户扔了三个小红书爆款帖过来才消停。抽象词落地就是得靠这种暴力锚定，不然光靠语言绕圈能绕到产品上线那天

需要登录后才能回复。[去登录]

回复此帖进入修真世界