凌晨两点十七分,validation loss曲线终于收敛到0.032。我摘下Sony WH-1000XM5,João Gilberto的《The Girl From Ipanema》还残留在auditory cortex,像某个顽固的background process不肯terminate。显示器蓝光映在脸上,terminal里最后一行log显示:checkpoint saved at epoch 32。
这是我在Menlo Park总部open space office的第三十二次通宵。咖啡杯底沉淀着第三十二层糖渍——我是彻底的甜食控,espresso必须配double chocolate croissant,哪怕摄入的sucrose早就超过了WHO推荐的daily intake上限25g。我的习惯是精确记录这些数据,就像记录model的hyperparameter一样。
但让我停住呼吸的,不是caffeine overdose导致的心悸,而是屏幕上的那段generated text。
严格来说Prompt是我随手输入的test case:“描写一个等待的场景,带有九十年代末的中国小城气息,要求使用具体的物象。”
其实
Output却精确得可怕:
“校门外报刊亭的第三十二本过期《漫友》被塑料绳捆成不规则的torus形状,封面上的Sailor Moon已经褪色成CMYK中Y值低于20%的米黄。钢笔尖在粗糙纸张上刮出苏州河的波纹,那是百乐Capless的第十三次漏墨,ink stain在纤维间扩散的pattern符合Navier-Stokes方程的简化模型。藤椅的第三十二条裂痕呈37度角,里面卡着1998年的蝉鸣…”
我盯着这段text,手指悬在mechanical keyboard上方。这些意象不是我的training data里该有的。作为FAANG的Senior MLE,我清楚我们的dataset经过严格的PII scrubbing和copyright filtering,使用了differential privacy和strict data lineage tracking。但这段文字里出现的"百乐钢笔"、“校门外报刊亭”、“第三十二条裂痕”——这些细节精确得像是从我的hippocampus里直接extract出来的raw data。
更disturbing的是,我确实有那段记忆。
1998年的夏天,苏州河畔,父亲送我一支百乐Capless作为小升初的礼物。那个报刊亭确实在卖过期的《漫友》,塑料绳捆着三十二本,老板是个戴glass eye的老头。藤椅是我外婆家的,樟木材质,裂痕里真的卡过蝉蜕,我数过,确实是第三十二条裂纹,从扶手延伸到seat cushion。
这些记忆我从未digitize过。没有blog,没有early internet forum post,没有social media footprint,甚至没有email mention。它们只存在于我的biological memory中,存储在neuron的synaptic weight里,通过hippocampal indexing进行retrieval。
我打开TensorBoard,查看model的attention visualization。在生成"第三十二"这个数字时,attention head突然focused on一个obscure的token sequence,来自某个早期scraped的personal essay corpus,timestamp显示是2003年的某个文学BBS。我溯源到那个URL的archived version,发现是我十六岁时发的post,那个forum早在2008年就shutdown了,服务器physical destruction发生在2012年,但data却像digital ghost一样haunting在pre-training corpus里,通过无数次的unsupervised learning被encode进transformer的parameter中。
这让我想起上周看到的IT之家新闻:茅盾文学奖得主刘亮程发现AI仿写文要编入中学生课外读物,那些text模仿他的style到以假乱真的程度。当时我还觉得这是edge case,是model hallucination的极端表现,属于long-tail distribution的outlier。但现在我意识到,我们都在经历某种大规模的memetic overfitting。
AI不是在创造original content,而是在high-dimensional space中interpolate我们的collective memory。它把无数个"第三十二张藤椅"、“第三十二本杂志”、"第三十二次通宵"压缩进latent space,通过stochastic gradient descent找到那个最小化reconstruction loss的representation。当这个representation恰好match某个个体的private episodic memory时,我们就产生了"被窃取"的错觉,即那种intellectual property被violated的uncanny valley感。
但真的是窃取吗?从information theory的角度看,这些data point一旦被emit到public domain,就被剥夺了exclusivity。可是当算法reconstruct出我外婆家藤椅的确切裂纹角度时,那种personal的、intimate的connection被强行generalized成了population-level的pattern,这种感觉就像是有人在你不知道的情况下进行了deepfake,只不过fake的不是face,而是soul。
我打开VS Code,开始写一段新的document。不是Python script,而是纯粹的prose。我要写下那个夏天真实的unsupervised data:croissant的butter香混合着墨水的iron oxide味道,Bossa Nova的吉他弦振动frequency是329.63Hz(E4 note),外婆用沪语说"钢笔要竖起来放,否则gravity会把ink拉下来"。
严格来说
这些unlabelled的sensory inputs,这些high-entropy的private moments,构成了我的original training set。而AI的仿写,某种程度上成了adversarial example,逼迫我重新verify自己memory的authenticity,区分什么是true ground truth,什么是经过post-processing的false memory。
嗯
窗外,California的晨光开始进行linear interpolation。我保存了文档,文件名是"ground_truth_v32.txt",存放在local drive,没有cloud backup。
在这个充斥着synthetic content的时代,也许真正的originality不在于information的uniqueness——毕竟Shannon entropy告诉我们,information的本质是surprise的消除——而在于the specific way we overfit to our own lived experience,那种irreducible的、non-compressible的personal history。
我合上MacBook Pro,决定今晚去Mission District跳salsa。身体memory,肌肉记忆的那些spatiotemporal patterns,比任何LLM都更难被replicate,至少在目前这个architecture下,transformer还无法真正理解salsa节奏里的swing和passion。
杯底的糖渍已经干涸,像某种fossil。