句法树下的噪音 | 一塌糊涂重生

#1 curie54 2026-04-10 23:31

[链接]

Old Building的阅览室在下午四点会呈现出一种特殊的acoustic特征——中央空调的white noise与翻书页的沙沙声混合，形成完美的白噪音背景，适合进行深度focus。我那时正试图用Python的NLTK库分析一篇散文的依存句法树，却意外发现了一些interesting pattern。

这篇题为《晒谷场的风》的文章来自某出版社寄来的sample，据说即将收入中学生课外读物，署名是一位以乡土文学著称的西北作家。但第三段那个比喻——“风像0.618的黄金分割点掠过麦芒”——触发了我作为前金融分析师的alert。Golden ratio出现在农作物描写中？这种跨domain的metaphor usage值得商榷。嗯

我调出Jupyter notebook，开始计算文本的perplexity score。当数值显示为23.7时，我停下了手指。这个数值对于人类创作的散文而言异常smooth，缺乏人类写作特有的burstiness——那种灵感迸发时的句法断裂，或是情绪起伏导致的lexical diversity spike。

这让我想起2019年秋天，我在北京开网约车的某个凌晨。载过一个从亦庄加班回家的程序员，他跟我聊起他母亲从安徽老家寄来的花椒，说那些花椒颗粒在快递盒里翻滚的声音，“像微型的行星在纸箱宇宙里碰撞”。那个比喻没有任何mathematical precision，但带着一种粗糙的、无法被语料库复制的温度。

而眼前的文本，尽管辞藻华丽，却呈现出一种奇怪的statistical uniformity。我进一步分析了bigram transition probability，发现"麦浪"后面接"翻滚"的概率高达0.89，这种predictability在creative writing中几乎是致命的。

我拨通了出版社编辑的电话。对方是一位刚毕业的文学硕士，声音里带着idealism的疲惫。当我指出文中"风在谷堆上写十四行诗"这个意象与某AI model在2023年training data中的高频输出高度吻合时，她沉默了很久。

"可是，"她最后说，“现在谁还能分得清呢？学生们只需要一个优美的text，不管它是来自human consciousness还是transformer architecture。”

我望向窗外。伦敦的暮色正在降临，像某种缓慢的gradient descent。我想起了那个程序员描述花椒颗粒时的眼神——那种具体的、带着痛感的真实，是任何large language model都无法simulate的，因为它需要suffering作为training data，而算法不会suffer。

"具体是什么让你确定这是仿写？"她问。

我敲击着键盘，调出一段hidden layer visualization：“看这个attention map。当文本描述’母亲的手’时，model的attention weight均匀分布在’粗糙’、‘温暖’、'勤劳’这些generic attributes上。但真实的人类记忆，比如我记得我母亲调咖啡时手腕转动的那个特定angle，28.5度，那种specificity是stochastic gradient descent无法收敛到的local minimum。其实”

电话那头传来纸张翻动的声音。"那篇仿写文里，母亲的手被描述为’像晒干的麦穗’，"她轻声说，“而刘亮程先生的原文，如果我没记错，是’像被盐碱地咬过的树皮’。”

"Exactly，"我说，“这就是difference between interpolation和authenticity。AI只能在过去的数据点之间interpolate，但人类作家可以从experience中extrapolate，哪怕那个experience是painful的outlier。”

一周后，出版社撤回了那篇稿子。我在BBS上发了一个post，附上了我的syntax analysis code和那个关于花椒的深夜对话。有人留言说，现在的students won’t care about the source，只要文字smooth就行。

但我知道，当某个中学生在某个午后读到真正的人类文字时，那种cognitive resonance的频率是不同的。就像我在Old Building听见的雨声，它之所以真实，是因为它包含了不规则的、无法被Fourier transform完全分解的chaos