用Mac跑大模型，比5090还划算？-车市号

用Mac跑大模型，比5090还划算？

雷电充能站

2026-03-09

从去年搭载了 M4 Pro 的 Mac mini 发布以后，国外很多工作室和小公司都掀起了一股使用 Mac mini 集群来替代使用高端算力卡部署大模型的风潮。

这对于始终与影视工业高度捆绑的Mac来说，似乎有一些“跨界感”，以创意设计、影像能力出众的Mac系列，为什么如今会在大模型推理、训练这种听起来十分硬核的领域备受关注呢？在这背后的原因就是Apple Silicon的统一内存架构和与M4 Pro机型绑定的Intel^®Thunderbolt™ 5接口。

统一内存架构允许CPU和GPU共享内存资源，也就是说，内存可以直接被视作显存使用。拿配备 64GB 统一内存的Mac mini 来举例，其可用作显存的容量就已经远远超过了许多高端显卡和入门级算力卡，如仅有24GB显存的英伟达RTX 4090。

对于模型推理来说，显存容量是硬性指标，算力再充足，显存不足也会导致可以推理的模型体量存在很大的短板，因此在显存上的显著优势使得 Mac 设备获得了以低得多的售价来处理更大模型的入场券。不过，如果仅仅只有一台Mac，那么其算力对于跑起大模型来说会成为巨大的短板，而这时就需要同时搭配开源的 EXO 项目，通过Intel^®Thunderbolt™ 5接口将多台Mac设备整合成一个 AI算力集群，用以补足单机性能不足的问题，让本地执行大模型推理成为具有实用性的方案。

EXO项目操作面板（图片源于互联网）

比如，国外某科技博主就使用了8台搭载M4 Pro的Mac mini设备，以Intel^®Thunderbolt™ 5接口相互连接搭建了一个小规模的算力集群，并成功在这个算力集群上运行了DeepSeek R1 671B“满血版”大模型。8台64GB内存版本的Mac mini设备共提供了512GB的内存/显存，使之符合运行DeepSeek R1 671B的基本配置要求，而如果选择英伟达RTX 5090显卡，则需要16张卡才能够符合显存的基本要求，考虑到RTX 5090当前的溢价，在不过度纠结运算速度的情况下，8台Mac mini的集群方案成本仅为16张RTX 5090方案的不到25%，成本优势极为显著。

Intel^®Thunderbolt™ 5在整个AI算力集群中起到的作用，就是为这种集群计算的模式奠定物质基础。在大模型推理的过程中，不同的Mac mini之间需要不断进行大量数据交换，如果每台设备之间的数据通道带宽存在瓶颈，就会抑制整套计算集群的性能表现。

Intel^®Thunderbolt™ 5 作为最新一代的扩展技术，能够提供 80Gbps 的双向带宽，数据传输带宽则为 64Gbps，这一速率相当于 pcie4.0*1 的水准。通过Intel^®Thunderbolt™ 5 相互连接的 Mac mini，就如同在 Pcie4.0 *1 通道或者 NVMe 接口上互相连接，将本应内置的接口，变成了一种可插拔的外置扩展接口。只需将数台 Mac mini 使用Intel^®Thunderbolt™ 5 数据线两两连接组成菊花链，就能让数台 Mac mini 之间建立双向数据连接，进而让每台 Mac mini 都能更强协同释放算力，让算力表现尽可能接近“1+1=2”的效果。

不止Mac，EXO项目目前还支持Linux、Android和iOS平台，后两者对于组成算力集群推理来说并不具备实用性，但目前绝大多数的PC都可以安装Linux/Windows双系统，这意味着你如果手上有多台搭载了Intel^®Thunderbolt™ 4/5接口的PC，也可以在装入一套Linux操作系统后通过这种方式将其组合起来，配置起一套属于自己的本地大模型推理平台。

在当前几乎所有AI算力相关产品的价格都在水涨船高的情况下，对于个人发烧友或者中小公司想要组建一套本地大模型算力平台用于处理敏感的隐私信息或涉密信息，那么更好的方式无疑就是利用更有价格优势的消费级产品，通过Intel^®Thunderbolt™技术的强劲赋能，获得更高的“算力性价比”。而作为这种应用方式的基础前提的Intel^®Thunderbolt™技术，也随着AI的普及实现了应用场景的进一步拓宽。

声明：本文由车市号作者撰写，仅代表个人观点，不代表网上车市。文中部分图片来源网络，感谢原作者。