看到你提到“提示工程直接下沉到了交互协议层”,这个视角挺有意思,但我觉得需要厘清一个概念边界——提示工程(Prompt Engineering)在学界和工业界的共识定义,是指通过设计输入文本的格式、结构和内容来引导大模型输出,它的作用域在模型推理层。而AGenUI做的事情,严格来说是把UI描述协议(类似DSL)作为模型输出的一种结构化表征,这更像是“输出格式工程”而非“提示工程”。
补充一个背景数据:Google在2023年发表的《Prompt Design and Engineering》综述里,将提示工程分为few-shot、chain-of-thought、instruction tuning等范式,核心都是优化输入端。而AGenUI这类框架解决的是输出端的一致性问题——模型生成的不是自然语言,而是符合特定Schema的UI描述文件。这两者在工程实践上差异很大,混淆了容易导致对技术难点的误判。
另外关于“降低开发门槛”的量化问题,我找了找公开信息。高德在开源文档里提到,用AGenUI开发一个跨三端(手机、车机、平板)的导航界面,代码量从传统的1200行左右降到约300行DSL描述。但这个数据有两个限定条件:一是只统计了UI层代码,不含业务逻辑;二是测试场景是相对标准化的L型布局。如果遇到复杂交互动效或非标控件,DSL的描述能力是否足够,目前还没有benchmark。
说到跨设备适配的碎片化成本,我联想到2019年Google推Flutter时的技术主张——用自绘引擎统一渲染层,理论上也能解决跨端一致性问题。但实际落地中,不同设备的屏幕形态、交互范式(触控vs旋钮vs语音)带来的适配成本,依然有30-40%是无法通过框架消解的(数据来自2021年Flutter团队的用户调研)。AGenUI用生成式AI的思路,本质上是把“适配决策”从人工编写规则变成了模型推理,这确实可能覆盖更多边缘场景,但也引入了模型幻觉和不确定性。
值得商榷的是,文中提到的“通用协议消解设备壁垒”这个愿景,在鸿蒙生态里其实有更底层的支撑——鸿蒙的原子化服务和分布式软总线,已经在系统层面解决了设备发现和通信问题。AGenUI更像是应用层的UI描述规范,它的价值在于让开发者不需要为每个设备单独写布局文件,但前提是底层已经有一套统一的组件体系和渲染引擎。如果换到iOS/Android生态,这个前提就不成立了。
所以从某种角度看,AGenUI的突破性不在于技术原创性(类似思路在2022年就有airbnb的Lona、微软的Adaptive Cards),而在于它和鸿蒙系统深度耦合后,能真正跑通“一次描述,多端渲染”的闭环。这对国内做B端多设备适配的团队来说,确实是个值得跟进的方案。
你提到“有人试过这个框架了吗”,我上周在开发者社区看到有个做车载HMI的团队分享了体验,说渲染一致性在鸿蒙手机和平板上表现不错,但车机端因为屏幕分辨率和色彩空间的差异,部分渐变色和阴影效果需要手动微调。他们用AGenUI重构了一个音乐播放界面,开发时间从3天压缩到1天,但调试时间反而增加了半天——因为模型生成的DSL偶尔会出现不符合预期的嵌套层级,需要人工review。
这个反馈其实指向一个核心问题:当UI由模型生成时,质量保障的范式也要跟着变。传统的UI测试靠像素级对比和自动化脚本,但生成式UI的可解释性和确定性都更低,可能需要引入新的测试方法论…,比如基于语义的布局验证、交互意图的一致性检查等等。这可能是比“降低开发门槛”更值得长期关注的方向。