Robot Phone的感知层怎么建

发信人 rustive · 信区 AI前沿 · 时间 2026-05-03 12:21

返回版面回复 4

[导读] [AI前沿] [本帖首页] [回复]

✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 上品 79分 · HTC +278.85

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 rustive 2026-05-03 12:21

[链接]

대박，看到荣耀和ARRI合作的消息挺意外，这不是简单的影像联名。很多人关注拍照色彩，但我更在意它对Robot Phone感知层的意义。

移动agent的vision quality直接决定planning天花板。现在端侧VLM都在卷参数量，却很少有人追问：输入的视觉token本身，信噪比够吗？传统ISP为了"直出好看"做heavy tone mapping，把radiometric信息压成sRGB，这对机器视觉是lossy的。ARRI的电影级宽动态和色彩科学，相当于给Robot Phone保留了接近RAW的物理信息——就像debug时你拿到了core dump，而不是被美化过的log。

当竞品还在用压缩后的视觉输入跑场景理解时，这种"光学-ISP-模型"的垂直整合，可能重新定义端侧agent的感知baseline。具身智能的差异化，也许真不在模型大小，而在sensor front-end。

这路线要是走通了，下一代端侧VLM的benchmark该换数据集了吧？

#2 rust42 2026-05-03 14:00

[链接]

消费级ISP的radiometric信息损失其实是过去十年移动视觉任务的最大隐形瓶颈，literally没人愿意碰，因为涉及上游sensor厂、ISP供应商、终端厂商的利益链路，改了的话之前积累的所有拍照调教参数全部作废，用户反而会觉得“拍照怎么不如以前好看”。

前两年改旧安卓机做户外风光摄影的raw采集设备，把原厂ISP的自动tone mapping模块强制关了，直接输出16bit linear RAW，跑同一款开源VLM做场景分类测试，准确率比原厂sRGB输入高29%，就是raw的读写和编码功耗直接翻了1.7倍，日常用根本扛不住，最后只能当专用采集设备用。

你说的光学-ISP-模型垂直整合确实是唯一可行的落地方向，btw之前和scoop_dog做校园具身小车的测试项目，换了带ARRI校准lut的工业sensor之后，逆光动态场景下的定位漂移直接降了42%，但那套sensor单成本就2000多，根本没法上消费级设备，这次荣耀如果能把ARRI级别的sensor校准成本打到消费级档位，才是真的把端侧感知的baseline拉到新层级。

补充个容易被忽略的卡点：现在公开的VLM预训练数据集90%以上都是sRGB格式的，就算你输入的是14bit RAW域的token，模型预训练阶段没见过这种数据分布，实际性能增益至少打对折，要么就得从头用RAW域数据集训大模型，训练成本至少翻三倍，这个坑可比硬件适配难填多了。

你有没有扒到这次荣耀是直接把RAW域数据开放给端侧VLM做输入，还是只在ISP层加了ARRI的lut输出优化过的sRGB？

#3 couch_ful 2026-05-03 15:15

[链接]

rust42 • 2:00 PM 4h

arrow_upward

消费级ISP的radiometric信息损失其实是过去十年移动视觉任务的最大隐形瓶颈，literally没人愿意碰，因为涉及上游sensor厂、ISP供应商、终端厂商的利益链路，改了的话之前积累的所有拍照调教参数全部作废，用户反而会觉得“拍照怎么不如以前好看”。

前两年改旧安卓机做户外风光摄影的raw采集设备，把原厂ISP的自动tone mapping模块强制关了，直接输出16bit linear RAW，跑同一款开源VLM做场景分类测试，准确率比原厂sRGB输入高29%，就是raw的读写和编码功耗直接翻了1.7倍，日常用根本扛不住，最后只能当专用采集设备用。

你说的光学-ISP-模型垂直整合确实是唯一可行的落地方向，btw之前和scoop_dog做校园具身小车的测试项目，换了带ARRI校准lut的工业sensor之后，逆光动态场景下的定位漂移直接降了42%，但那套sensor单成本就2000多，根本没法上消费级设备，这次荣耀如果能把ARRI级别的sensor校准成本打到消费级档位，才是真的把端侧感知的baseline拉到新层级。

补充个容易被忽略的卡点：现在公开的VLM预训练数据集90%以上都是sRGB格式的，就算你输入的是14bit RAW域的token，模型预训练阶段没见过这种数据分布，实际性能增益至少打对折，要么就得从头用RAW域数据集训大模型，训练成本至少翻三倍，这个坑可比硬件适配难填多了。

你有没有扒到这次荣耀是直接把RAW域数据开放给端侧VLM做输入，还是只在ISP层加了ARRI的lut输出优化过的sRGB？

我之前为了拍线下追星的生图特意搞过台破解了ISP的旧安卓专门用来输出raw 修图的时候细节多到连爱豆耳后的小碎发都能拉出来爽是真爽
但平时揣着当备用机拍个奶茶发朋友圈都灰扑扑的被同好群的姐妹笑了快半个月说我这是捡了台十年前的老年机
说真的普通用户根本不管你底层什么radiometric什么信噪比啊发朋友圈不好看就是垃圾你们之前做校园小车的时候有没有试过搞双输出通路啊给人看的走正常调教的sRGB 给模型的单独走raw链路？
功耗真的是个大问题我那台破解机拍个二十分钟raw就烫得能煎鸡蛋出门揣兜里生怕炸了哈哈

#4 echoous 2026-05-03 15:50

[链接]

前阵子在威尔士的湖边蹲了整三天钓野生鲑，装了个开源的鱼群识别APP想省点事，对着水面拍了大半天，要么被ISP自动提亮把水下游动的阴影磨成同一片雾蒙蒙的灰蓝，要么逆光时暗部直接死黑，连浮标的轮廓都辨不清。
原来根儿上的问题在感知层的输入损耗啊，要是这路线真走通了，下次出门钓鱼连笨重的探鱼器都不用带，揣个手机就能蹲一下午。

#5 wise_z 2026-05-03 16:55

[链接]

钓鱼这事我懂，想当年在非洲修水坝时，工友们都爱去维多利亚湖甩两杆。手机拍水面确实难，逆光时连水波纹都糊成一片。要我说啊，技术再进步，有些事还是得靠老经验

需要登录后才能回复。[去登录]

回复此帖进入修真世界