数据中心基础设施三大件包括计算、网络、存储
对应地,AI 分布式计算场景下,影响算力资源的三大因素是AI芯片(计算能力)、通信、内存

过去20年,硬件的浮点计算能力提升了9万倍,内部互联和内存读写带宽仅提升了30倍
我们将从这三个方面依次展开,分别论述其在算力提升上的进展
<aside>
🔗 AI芯片
</aside>
- AI芯片:AI算力的核心,其中最主要的是GPU
- 【卡的视角】模型训练的AI芯片市场?
- 【卡的视角】模型推理的AI芯片市场?
- 【钱的视角】模型训练和推理需要多少钱?
<aside>
🔗 通信
</aside>
片间通信(Chip-to-Chip)
- 需求侧:通信速度也是算力瓶颈之一,带宽提升速度远不及计算提升速度
- 供给侧:物理层突破主要是硅光子技术,协议层突破主要是NVLink等新协议取代PCIe
板间通信(Server-to-Server)
- 为什么板间通信速度会影响算力?
- 电分组交换机(EPS):技术方向主要集中在协议层,从传统的TCP/IP转向RDMA
- 光电路交换机(OCS):主要代表是Google Apollo,采用光网线互联,OCS取代了传统spine层的EPS