Anthropic拆了百万本书，暴露了AI训练最残酷的真相-车市号

沐嘟嘟是我

2026-06-02

【Anthropic拆了百万本书，暴露了AI训练最残酷的真相】

最近，AI圈有两件事放在一起看，特别有意思，也特别讽刺。

一件是Anthropic的“巴拿马计划”：买书、拆书、扫描、销毁。为了获取数据，他们不惜用液压切割机把数百万册实体书“五马分尸”。

另一件是GPT之父Alec Radford的新动作：他用OCR手动识别近百年前的旧文献，训练出一个只读过1931年之前书籍的模型，结果这个“老古董”竟然自己写出了Python代码。

这两件事，看似无关，实则指向了同一个残酷的真相：互联网的数据快被吃完了，大模型的竞争，已经进入疯狂的“数据争夺”时代。而在这场争夺中，OCR不再是那个默默无闻的“文档扫描仪”，它摇身一变，成了决定大模型未来的“战略入口”。

为什么这么说？你看Anthropic的操作就明白了。他们为什么非要把书拆了？因为传统的OCR技术，看不明白弯折的书页、不均匀的光照、复杂的排版。机器读不懂真实世界，那就只能把真实世界暴力改造成机器能读懂的样子。这是一种工业时代的思路——以毁灭物理载体为代价，换取标准化的数字养料。

但另一条路，已经有人走出来了。

百度最近发布的文心衍生模型PaddleOCR-VL-1.6，展现的完全是另一种哲学。它不需要拆书，不需要压平，更不需要什么标准化处理。在OmniDocBench v1.6上96.33%的全球第一成绩，靠的是直接去“理解”这个复杂的世界。

你看它的测试场景：扫描件？没问题。弯折文档？轻松拿捏。屏幕拍照、光照变化，甚至倾斜得歪七扭八的文档？统统不在话下。PaddleOCR-VL-1.6做的事，本质上是为文心大模型装上了一双能看懂“真实世界”的眼睛。

这意味着什么？意味着图书馆里海量的纸质书、企业积压的文档、档案馆里的珍贵资料，甚至你随手用手机拍下的一张PPT，都能成为大模型高质量的训练养料。不需要破坏，不需要改造，模型自己就能去适应世界、理解世界。

所以，再回头看Anthropic那数百万册被销毁的书籍，真正值得我们讨论的，不是版权争议，而是两种截然不同的AI未来：

一种，是让世界强行适应模型，代价是文明的物理遗存被损耗。另一种，是让模型努力理解世界，门槛更高，但想象空间也更大。

庆幸的是，我们看到了后者。

#百度 #文心 #文心5 #文心大模型 #PaddleOCR #谷歌 #OCR #DeepSeek#AI大模型 #AI技术

声明：本文由车市号作者撰写，仅代表个人观点，不代表网上车市。文中部分图片来源网络，感谢原作者。

请您注册或者登录车市社区账号即可发表回复

注册登录

竟然没评论，快去评论~~

1作品

以饱满的热情探索和分享科技数码新知，无论是智能手机、穿戴设备，还是最新款的汽车，都能讲述它们背后的故事。