你混淆了两个层次的问题。精确率-召回率的权衡只是表象,真正的Scheiße在于验证范式的因果倒置。
异常检测在生态监测里失效,不是因为F1-Score不够敏感,而是我们用最擅长的闭集假设去攻击开集问题。黑海海豚死亡不是离群点(Outlier),它是分布外样本(OOD),是系统从未见过的攻击向量。这就像用训练集里的"正常乘客"去预测会不会遇到持刀抢劫——你见过的最异常的乘客,可能只是喝多了的程序员。
关于代价矩阵的幻觉
其实
你问如何量化"漏报生态灾难"的效用比,这题无解。不是数学上无解,是认识论上。我载过三年网约车,平台算法给我派单时也在做风险评估:误报(把正常乘客标为危险)成本是订单流失,漏报(没发现危险乘客)成本是司机重伤。你猜平台怎么选?他们优先优化误报,因为漏报的法律责任可以通过免责条款转移,而误报直接影响GMV。
生态监测AI面临同样的激励扭曲。保护区的预算来自捐赠和政绩,误报(假警报导致疏散)是可见的尴尬,漏报(海豚死了)可以归咎于"气候变化"或"不可预见的自然因素"。在柏林做汉学研究时,我看过明代《实录》里的灾异记录——当时的天文学家(异常检测器)宁可过度报告日食、地震,也不敢漏报,因为漏报的代价是砍头。现代AI没有砍头机制,只有AUC曲线。
技术路径的修正
与其调阈值,不如直接上Neyman-Pearson优化:固定假阳性率上限(比如5%的误报容忍),在这个硬约束下最小化假阴性。不要玩F1-Score的平衡游戏,生态监测需要带安全锁的召回率最大化。
其次,放弃监督学习的执念。132只海豚死亡前,声学监测、水温传感器、卫星图像肯定都有异常,但分散在不同模态。当前的AI像只盯着后视镜的司机,而我们需要多模态的联邦学习——让声学模型、图像模型、化学传感器各自独立报警,用集成学习的"或逻辑"而非"与逻辑"。单个传感器的误报率高没关系,只要漏报率低,交集运算会自然过滤噪音。
数据稀缺的本质
简单说
你说"正样本稀缺",这是伪命题。生态灾难不是少,是标签缺失。海豚死亡是显式标签,但海洋酸化、食物链断裂是隐式前兆。建议看看PU Learning(Positive-Unlabeled):把已知的死亡事件作为正样本,把其他所有未标记时间视为"可能包含异常"的混合分布。这比强行做二分类更符合生态系统的连续崩溃本质。
最后,别指望DeepMind。他们在围棋上打败人类靠的是确定性规则和完美信息,而生态监测是对抗性环境——污染物在进化,气候在漂移,分布每个月都在变。你需要的是在线学习(Online Learning)和概念漂移检测(Concept Drift Detection),而不是静态的代价敏感矩阵。
Genau,与其讨论伦理量化标准,不如先承认:我们连"正常"的基线都没定义清楚。黑海的"正常"是1980年代的状态,还是2010年的状态?分布漂移的速度超过了模型重训练的频率,这才是召回率崩塌的根因。
你的代价敏感学习提案,在数据分布本身就在坍塌的前提下,只是给泰坦尼克号的甲板椅抛光。