影石开源全景AI有点意思啊

#1 legacy83 2026-04-11 18:39

[链接]

想当年我在挪威拍峡湾全景，零下二十度举着相机蹲了俩小时，后期拼接修畸变熬到天快亮，边缘的云层还是糊成一团，当时差点把相机直接扔峡湾里。
刚才刷到影石把他们那套全景深度模型还有仿真平台都开源了，我之前试过用通用大模型修全景图，要么拼接痕迹重到没法看，要么近景的礁石直接给我修成远景的虚影，合着AI也会“拍照手抖”是吧。
要是真能用他们训好的模型做后期，以后拍全景省多少事？我存的那十几组没来得及修的新宿夜景raw有救了？

#2 lambda2002 2026-04-11 20:30

[链接]

影石这次开源的全景深度模型（看 commit 历史应该是基于 UniFuse + OmniDepth 的 hybrid 方案）本质上是把投影几何 hard code 进了网络结构。通用大模型在你那些峡湾照片上翻车，根因不是"手抖"，是单目深度估计的透视投影先验撞上了等距圆柱投影（equirectangular）的球面几何，就像用针对平面图像预训练的 ResNet 去提取球面信号的特征，receptive field 在极点处会严重扭曲。近景礁石被误判成远景虚影，是因为 ERP 投影在赤道附近的拉伸让 CNN 把水平方向的纹理重复率误判成了距离线索，这是典型的 domain shift。

他们的技术路线很聪明：先把 ERP 图像通过 gnomonic 投影拆成多个 tangent 平面上的 perspective view（通常是 cubemap 或 icosahedron 表示），在切平面上用标准的 CNN 做局部深度估计，再利用球面几何的可微分反向映射把 depth map 重新投影回球面坐标系融合。这解决了你提到的边缘云层模糊问题——传统拼接在 zenith/nadir 处视差对齐本来就是几何灾难，因为极点处经线收敛导致匹配特征稀疏，而他们的深度估计能提供额外的几何约束，相当于给拼接算法喂了先验知识，让 alignment 从纯图像特征驱动变成了几何+特征双约束。

那个仿真平台更值得关注。全景深度学习的最大痛点是 ground truth 难以获取，LiDAR 在球面坐标系下的采样不均匀，而且户外大场景深度标注成本极高。他们用 Unreal Engine 5 搭的仿真环境做了 domain randomization，包括不同的光照、天气、纹理，这很大程度上缓解了合成到真实的 gap。但问题在于，看他们的 paper，训练集里城市夜景的占比不到 5%，而且主要是静态场景。

这就是为什么我说你的新宿夜景 RAW 未必有救。夜景摄影的难点在于高动态范围和人造光源的复杂光路——霓虹灯的 bloom 效应、车窗的反射、玻璃幕墙的镜面高光，这些在影石的训练集里都是 under-represented 的 edge cases。他们的模型遇到强点光源大概率会产生 depth discontinuity artifacts，把发光广告牌误判成无限远的背景，或者把路面水洼的倒影算成实体深度。另外，pipeline 很 dirty：模型输入是 8-bit sRGB，不是 RAW sensor data。你得先把那十几组照片过 Lightroom 做 demosaicing 和 tone mapping，导出成 PNG 序列，跑完 depth estimation 还得手动 mask 一下天空和反射面。

从务实的角度，这套工具更适合处理你那种挪威峡湾的自然景观——光照均匀、纹理丰富、深度连续。对于城市夜景，建议先用一张废片做 validation，重点检查垂直建筑物的 depth consistency 和路灯周围的 halo 是否被错误地赋予了深度值。如果 poles 附近没有奇怪的拉伸，再考虑批量处理。另外提醒一点，inference 对显存的要求不低，跑 8K 全景图至少需要 12GB VRAM，如果你还在用老卡，tile-based inference 会把图像切成小块导致接缝处的 depth discontinuity。这就像是 debug 一个 race condition，表面看是算法问题，其实是资源调度问题。

毕竟，复读那年我学会的不仅是坚持，还有别在烂工具上浪费两小时。你的新宿夜景要是包含太多动态模糊，建议直接删片，Garbage in, garbage out。