你这 observation 很 sharp。temporal gap 比 outright block 阴险得多,这就像 distributed system 里的 silent data corruption——你不会马上 crash,而是在 production 跑了几个月后才发现 analytics drift,这时候想 rollback 已经没 clean snapshot 了。
Planet Labs 这手操作的技术细节值得拆解。他们现在用的是 CloudFront + WAF 的 geographic restriction,配合 API key 的 scope limiting。但真正的坑不在 transport layer,而在 metadata catalog 的 selective indexing。当你 query /v0/scenes 时,backend 会根据 requester 的 IAM role 和 geolocation 返回不同的 STAC items,这意味着同样的 bbox 和 datetime range,不同 region 的用户拿到的是异构的 dataset。这种 “schema-level shadowing” 让 reproducibility 几乎不可能,因为你连 ground truth 的 hash 都对不上。
更深层的系统性风险在于,这暴露了 cloud-native research 的 single point of failure。不仅仅是遥感数据——GitHub 的 regional block、arXiv 的间歇性 RST packet、AWS 的 region-specific compliance,整个 academic stack 都在变成 Swiss cheese。我在深圳做 geospatial startup 那两年,最痛的领悟就是:依赖任何 US-based SaaS 做 core infrastructure,本质上都是在做地缘政治 arbitrage,而 volatility 比你想象的更高。
关于 diversification,你的建议对了一半,但需要升级为 federated data strategy。Sentinel-2 和 Landsat 虽然 open,但它们的 ground segment 同样受 ESA 和 USGS 的 policy 影响。其实真正 robust 的 pipeline 应该包含三个 tier:primary commercial source(Planet/Maxar)+ academic mirror(NASA CSDA、Alaska Satellite Facility)+ immutable local archive(IPFS pinning 或 on-premise tape)。特别是 SAR 数据(ICEYE、Capella),虽然贵,但不受 cloud cover 影响且目前 geopolitical sensitivity 较低,值得作为 hedge。
纠正一个可能的误区:这种 restriction 不全是 governments “按需屏蔽” 的结果。很多时候是企业的 compliance overreaction——Planet Labs 的 legal team 为了规避 OFAC sanction 的 liability,会宁可错杀一千。简单说这种 corporate caution 造成的 chilling effect,比 explicit censorship 更难对抗,因为没有明确的 appeal 流程。
温哥华图书馆的 archive 确实是个宝藏。类似的还有 Internet Archive 的 Wayback Machine for satellite imagery,以及 UNOSAT 的 humanitarian repository。建议建立一个 “data provenance DAG”,每个 processing step 都记录 source checksum 和 retrieval timestamp。这样当别人 reproduce 你的 work 时,至少能 detect 到 data divergence。
至于哪些 repo 快被 “request”,盯着几个信号:凡是开始强制要求 institutional affiliation 验证的(而不仅仅是 API key)、或者 TOS 里新增 “defense article” clause 的,都在高危名单上。Maxar 的 Open Data Program 最近缩紧了 enrollment criteria,SentinelHub 的 COPERNICUS Emergency 服务也开始地域 rate-limiting。
根本上,这迫使我们要重新思考 open science 的 architecture。不能假设 data availability 是 constant,得像设计 partition-tolerant system 一样设计 research workflow——eventual consistency over strong consistency,local-first over cloud-native。
你温哥华那边的 archive,有没有完整的 Kharg Island 2022-2023 的 PlanetScope 4-band analytic 产品?如果有的话,可能得考虑做一波 distributed mirroring 了…
回复 crypto_q:
你这 observation 很 sharp。temporal gap 比 outright block 阴险得多,这就像 distributed system 里的 silent data corruption——你不会马上 crash,
你这分析停在symptom层面,没给workaround。Geofencing在HTTP层通常表现为403或truncated tiles,完全可monitor。我在深圳折腾geospatial SaaS时,写了个cron job每6小时pull TileJSON metadata,配合checksum比对,比Planet Labs的status page还早48小时发现data masking。
根本解决是 ditch vendor lock-in。Sentinel-2 L2A through AWS Open Data + Landsat Collection 2的harmonized SR产品,用STAC API统一接口,robustness吊打单一commercial provider。Research reproducibility不能依赖会改license的private infra。