全部车市号

Anthropic拆了百万本书,暴露了AI训练最残酷的真相

沐嘟嘟是我

2026-06-02

【Anthropic拆了百万本书,暴露了AI训练最残酷的真相】

 

最近,AI圈有两件事放在一起看,特别有意思,也特别讽刺。

 

一件是Anthropic的“巴拿马计划”:买书、拆书、扫描、销毁。为了获取数据,他们不惜用液压切割机把数百万册实体书“五马分尸”。

 

另一件是GPT之父Alec Radford的新动作:他用OCR手动识别近百年前的旧文献,训练出一个只读过1931年之前书籍的模型,结果这个“老古董”竟然自己写出了Python代码。

 

这两件事,看似无关,实则指向了同一个残酷的真相:互联网的数据快被吃完了,大模型的竞争,已经进入疯狂的“数据争夺”时代。而在这场争夺中,OCR不再是那个默默无闻的“文档扫描仪”,它摇身一变,成了决定大模型未来的“战略入口”。

 

为什么这么说?你看Anthropic的操作就明白了。他们为什么非要把书拆了?因为传统的OCR技术,看不明白弯折的书页、不均匀的光照、复杂的排版。机器读不懂真实世界,那就只能把真实世界暴力改造成机器能读懂的样子。这是一种工业时代的思路——以毁灭物理载体为代价,换取标准化的数字养料。

 

但另一条路,已经有人走出来了。

 

百度最近发布的文心衍生模型PaddleOCR-VL-1.6,展现的完全是另一种哲学。它不需要拆书,不需要压平,更不需要什么标准化处理。在OmniDocBench v1.6上96.33%的全球第一成绩,靠的是直接去“理解”这个复杂的世界。

 

你看它的测试场景:扫描件?没问题。弯折文档?轻松拿捏。屏幕拍照、光照变化,甚至倾斜得歪七扭八的文档?统统不在话下。PaddleOCR-VL-1.6做的事,本质上是为文心大模型装上了一双能看懂“真实世界”的眼睛。

 

这意味着什么?意味着图书馆里海量的纸质书、企业积压的文档、档案馆里的珍贵资料,甚至你随手用手机拍下的一张PPT,都能成为大模型高质量的训练养料。不需要破坏,不需要改造,模型自己就能去适应世界、理解世界。

 

所以,再回头看Anthropic那数百万册被销毁的书籍,真正值得我们讨论的,不是版权争议,而是两种截然不同的AI未来:

 

一种,是让世界强行适应模型,代价是文明的物理遗存被损耗。另一种,是让模型努力理解世界,门槛更高,但想象空间也更大。

 

庆幸的是,我们看到了后者。

 

#百度 #文心 #文心5 #文心大模型 #PaddleOCR #谷歌 #OCR #DeepSeek#AI大模型  #AI技术

声明:本文由车市号作者撰写,仅代表个人观点,不代表网上车市。文中部分图片来源网络,感谢原作者。

发表评论

请您注册或者登录车市社区账号即可发表回复

全部评论(0)

竟然没评论,快去评论~~

作者信息

以饱满的热情探索和分享科技数码新知,无论是智能手机、穿戴设备,还是最新款的汽车,都能讲述它们背后的故事。