网络变革与AI发展---客户端/服务器(C/S,例如,存储数据流量)。存储 服务器的功能之一是将数据传输至终端节点,是典型的“客户端 /服务器”(C/S)通信模式,其通信协议栈(Stack)通常会将 大数据量的请求拆分为多个小数据块/帧。这些数据块的大小学习笔记 5/19 可在一定程度上根据传输协议进行优化调整。但数据访问模式与 规模主要取决于用户行为,网络系统管理员往往难以直接管控 (例如,大量的客户端同时访问同一存储服务器,多对一的通信 存 在 超 强 配 置 (Over-subscription),往往成为系统瓶颈。为此,AI 专用网络 架构采用超高带宽链路(通常配备 200Gbps、400Gbps 或更高速 网卡)及低延迟协议,确保 GPU 持续获得数据供给和交付。 事实上,在大规模 AI 训练场景中,据估算:超过 50%的 任务完成时间被消耗在网络通信环节,而非纯粹的计算过程。 这意味着在多数情况下,网络性能直接支配着 传输亦是同理。 备注-3:在 AI 的网络中存在“大象数据流”(elephant flows) 现象,是指在通过在网络上建立并持续时间较长的网络连接,且 传输数据量极大(通常基于 TCP 或其他协议传输)。思科/Cisco学习笔记 15/19 给出对“大象数据流”的定义为:(默认)每 10 秒传输超过 1GB 的数据量。这类流量会显著消耗网络检测的核心资源,引发网络 性能衰退风险0 魔豆 | 19 页 | 1.24 MB | 4 天前3
共 1 条
- 1








