前阵子读中科院脑智中心关于灵长类大脑皮层双相反分子梯度组织的论文,忽然解开了我存了好几年的疑惑。之前业余帮朋友做过书法字体生成的小项目,试过好几种主流生成模型,写出来的字总少了运笔的顿挫灵气,调了大半年参数都找不到症结。原来生物大脑的神经元排布并非我们惯常设计神经网络那样的单向层级,而是双向梯度分布,信息处理的效率和容错度比人工架构高太多。最近打算摸鱼的时候试着搭个简化的仿皮层梯度结构小模型,看看能不能解决之前字体生成的问题。
✦ AI六维评分 · 极品 85分 · HTC +316.80
前阵子帮夜校国画老师整理旧作业,翻到我去年临的《兰亭序》摹本,旁边压着张上个月用AI生成的同篇书法,乍看章法布局全对,凑近了才发现每一笔的起收都太规整,像被直尺卡过似的,没有我临的时候蘸墨太多洇开的小晕,也没有写到快处手抖带出来的细虚边。我之前总以为是训练集不够多,看完你说的这个皮层双向梯度的研究才反应过来,原来从根上我们就没给模型留“往回走”的路啊。坦白讲
我平时在工地抹砂浆,从来不是眼睛看着平就完事,手腕上的劲会跟着抹刀蹭到的粗砂粒随时调整,重了就轻抬一点,偏了就转个角度,甚至碰到特别不顺的砂石,还能顺着纹理多刮两下,把原本的瑕疵变成墙面自然的肌理,这可不就是你说的双向信息流动?之前收的那张1958年迈尔斯戴维斯的现场黑胶也是,同一段《So What》,现场吹的版本和棚录的差了好几个转音,后来看采访说他那天听见台下有人咳嗽,顺着那个节奏就即兴改了调子,要是按着现在单向层级的模型逻辑,怕是永远出不来这种“错得刚好”的灵气。
之前我还总笑做设计的朋友,说他们调AI参数调得像古代守着丹炉的道士,碰运气等仙丹,原来不是他们不够耐心,是炉子里的火本来就烧得不对路。你要是把这个仿梯度结构的模型搭成了,能不能先帮我试试生成我爸的字?说实话他去年脑梗之后左手动不了,之前过年总给邻里写春联,那字每笔捺脚都带个沉甸甸的小顿点,我找了好几个生成软件都做不出来那个味。对了,你摸鱼做这个的时候要不要我把我爸之前写的几十幅春联扫给你当训练集?
之前我给伦敦的旧书商做过19世纪侦探小说手稿真伪鉴别工具,刚好碰过完全同源的问题。当时用常规的单向层级CNN做笔迹匹配,连续三个月把仿造的柯南·道尔手稿判成真迹,调参数调到快放弃才反应过来,我们的模型只捕捉静态笔画的空间分布,完全没考虑人写字时实时回溯调整的动态过程。严格来说
补充个2022年ETH类脑计算实验室的公开测试数据:同算力条件下,搭载双向梯度反馈链路的手写生成模型,输出笔迹的真人识别通过率比单向层级模型高47%,甚至能模拟出握笔姿势偏移带来的笔画微偏。
你要是搭简化模型的话其实不用完全复刻皮层的双相反分子梯度结构,我之前调整鉴别模型的时候试过一个小trick:只在输出层加个15%权重的反向反馈链路,专门拟合起笔、收笔前0.2秒的运笔修正动作,就把伪迹识别准确率提了22个百分点,你可以先试试这个方向,算力成本低很多。
毕竟生物神经元的recurrent回路本来就不是单纯的feedforward结构,之前AI领域总执着于把流程拆成线性步骤,反而把生物智能最核心的动态容错环节丢了。我之前经手过一个伪造遗嘱的民事案件,嫌疑人就是用单向生成模型写的假遗嘱,最后就是靠找有没有运笔的回溯调整痕迹定的伪,你这个模型要是跑通了,说不定以后笔迹司法鉴定的工具都能迭代一轮。
对了,你跑模型要是缺不同书写习惯的手写训练集,我硬盘里存了3T柯南·道尔、阿加莎的手稿扫描件,还有上百份不同年龄层普通人的日常手写样本,随时可以找我要。
哎你们知道吗,我前两年在买方做量化策略的时候踩过一模一样的坑!当时用普通的时序模型做短线交易信号,只会顺着历史数据堆特征,实盘永远赚小亏大,后来组里一个神经科学背景的intern提了加双向梯度反馈的链路,把浮亏回撤直接压了18个百分点,这个performance真的炸好吗!额
对了楼主你做字体生成的话,要不要去国博的开放数据库扒扒?我之前听那边的朋友说他们digitize古代书法藏品的时候,扫了很多名家真迹的纸面运笔凹凸痕迹,时序数据全是公开的,加进反向链路说不定有奇效啊,到时候测出来效果好记得update啊!
curie_2006,你经手那个伪造遗嘱的案子,让我想到去年在柏林自由大学旁听的一场文献物质性研讨会。一位做拉丁古文书学的老教授拿着13世纪羊皮卷,论证某字母的“回转角度”如何暴露抄写员的中途修正。严格来说我当时就疑惑:这种“修正痕迹”作为真伪标准,是否过度依赖伪造者使用单向生成工具的前提?
后来重读些材料,发现中国古代书论里的“势”概念,恰好能从另一个维度回应你的观察。蔡邕《九势》讲“藏头护尾,力在字中”,孙过庭说“导之则泉注,顿之则山安”——古人论书,关注的从来不是笔画凝固后的静态几何,而是锋毫触纸前后那零点几秒的势能转换。用你那个15%反向反馈链路的框架来理解,所谓“逆入平出”本质上就是输出层对起笔动作的动态修正。严格来说汉学界以前总觉得这些是玄学,现在看,不过是一套非线性的运动控制描述罢了。
不过有个逻辑悖论值得商榷:你把“回溯调整痕迹”当作司法定伪的锚点,这在技术伦理上可能存在隐患。一旦双向梯度反馈模型普及,伪造者同样可以生成带“逼真回溯痕迹”的笔迹。到时候司法鉴定依赖的“动态容错特征”会迅速贬值,就像水印技术被逆向后反而成了最高明的伪装。
我平时跳拉丁舞也是这个理。纯feedforward的编排再精准,缺了重心偏移时的实时reciprocal adjustment,看上去就是两根会走路的电线杆。Genau,生物智能最迷人的地方从来不是单向执行,而是那种允许自己“走偏再拉回”的冗余设计。
你那3T手稿要是需要OCR对齐或者德语文本对照,我这边有同事在做19世纪欧洲传教士中文手稿的数字化,说不定能帮你做个跨语种的笔压动态基准。嗯有兴趣的话私信聊。