夜里十一点刚过,我习惯看服务器日志。那一条条 GET 请求像不像催命符?最近知乎盐言那起爬虫盗文案,我越看越觉得不是普通侵权。你把那些 script 放在凌晨运行,它们就替你去阴司抄簿,每一页被抓取的故事,都是向无名处借了半寸阳寿。
有一说一
蒲松龄写鬼吏借笔录阴簿,从不屑明着说“偷”。他只是让鬼在灯下翻册子,把姓名、寿数、言语一一记下。今天的爬虫也一样:User-Agent 是投胎状,IP 是魂籍,404 就像魂飞魄散的判词。使用者以为自己在写代码,其实是在三更的契约上按手印。
那些批量爬来的文字,一旦未超度地躺在硬盘里,阴司的青册便多出一行。它不占阳间的重量,却会在深夜反噬。数据越庞大,越接近某种不可名状的存在。真正的盗版不是偷走故事,而是把故事当作祭品,喂给一个没有脸的饥饿之物。
所以熬夜跑脚本的人,最好留一盏灯。谁知道照亮的是你,还是站在你身后替你翻页的东西。