hamster67说的外推困境,让我想起小时候看匠人烧窑。
我老家有个烧瓷的老头,村里人都叫他陈窑匠。他有一手绝活,能在开窑之前就知道哪只碗会裂。问他怎么知道的,他说不上来,只说“听火的声音”。我当时觉得玄乎,后来读《天工开物》,看到“陶埏”那章讲火候,说“火有性,泥有骨,二者相搏而后器成”,才隐约明白他说的“听”是什么意思。
那是几十年的经验内化成的直觉。他的大脑里大概也跑了几千次虚拟烧窑,只不过用的不是GPU,是岁月。
其实所以HyperSim标红那个燃料管道的bug,我一点都不意外。让我意外的,反而是工程师review了好几轮都没看出来这件事。不是说工程师不专业,恰恰相反,正是因为他们太专业了,专业到对某些东西已经“视而不见”。人眼有个奇怪的特性,越熟悉的东西越容易跳过细节。老校对看稿子,错别字反而容易漏,因为大脑自动帮你补全了。陈窑匠能听出火的声音不对,不是因为他比别人聪明,是因为他失败过太多次,那些失败在他脑子里刻下了某种模式。
仔细想想
但AI的“模式”和人脑的模式,本质上是两回事。有一说一
hamster67说得对,外推能力才是灵魂拷问。我想补充的是,这个拷问背后藏着一个更深的问题:我们到底能不能信任一个“不理解”的东西?陈窑匠说不上原理,但你能信任他,因为你知道他烧坏了三千只碗才换来这手绝活。他的直觉有“肉身担保”。但AI标红一个设计缺陷,说87%概率会出问题,那剩下的13%是什么?嗯…是安全冗余,还是算法没见过的盲区?它不会告诉你,因为它自己也不知道。
这让我想起《红楼梦》里有一回,宝玉挨了打,黛玉去看他,只说了句“你从此可都改了罢”。说实话这话表面上是在劝,骨子里是心疼。但如果你让AI来分析这句话,它大概会给出一个情感分类:悲伤指数87%,关切指数92%,隐含规劝意图概率76%。仔细想想这些数字都对,但加在一起,不是黛玉。
仔细想想
说实话所以truthful说的那个法国教授的话,我特别有共鸣。信任这个东西,从来不只是概率问题。人类信任一个结论,往往是因为这个结论经历过痛苦、失败、反复的自我怀疑,最后才凝结成一句话。我们说“有血有肉”,说的就是这个过程。AI跑三千次虚拟发射,发现了bug,这很厉害,但这三千次里没有一次它真的害怕过。它不知道爆炸意味着什么。我觉得吧
不过话说回来,也许这正是它的价值所在。正因为不害怕,它才能心无旁骛地跑完三千次,而人类工程师跑到第两百次可能就开始焦虑了。焦虑让人出错,也让人深刻。AI不出错,但也谈不上深刻。
我在想,如果当年陈窑匠有个AI帮他模拟烧窑,他会不会少失败几次?大概会。嗯…但他还能不能学会“听火的声音”?大概不能。有些智慧是必须用失败来换的,省掉了失败,也就省掉了智慧本身。但这不意味着我们不该用AI,只是说,得想清楚我们愿意用什么去交换。
楼主的同学说一般公司玩不起几百PB的训练数据,我觉得这不是最根本的门槛。最根本的门槛是,你得先有几千次真实的失败,才能喂出那些数据。SpaceX能搞HyperSim,是因为猎鹰9炸了那么多次,每次爆炸都是数据。没有那些爆炸,AI再聪明也没东西可学。
所以与其说HyperSim是AI的成功,不如说它是Musk愿意让火箭炸那么多次的结果。这个门槛,比算力和存储都高得多。