网络变革与AI发展
1.24 MB
19 页
0 下载
44 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
学习笔记
1/19
人工智能驱动了网络变革
网络承载了人工智能发展
AI Runs Networks and Networks Run AI
【摘要】:人工智能(AI),不仅是国家发展的战略性技术,
而且已在现实中发挥了作用。然而,“AI 作为信息技术(IT)
工作负载的重要分支”,AI 本身是技术生态系统(Ecosystem)的
组成部分。AI 技术的快速演进,既驱动了多个关联技术领域的
(系统性和结构性)变革,更由多个关联技术领域的变革支撑了
AI 技术的加速扩展。这份“学习笔记”的探讨重点是,传统
网络的规划和结构与 AI 扩展中的组网/连网的“瓶颈”问题,
以及目前的相关技术解决方案(即“路”在何方?)。其他相关
的问题(如 AI 的算力功耗和电力需求)超出了讨论的范围。
【关键字】:组网/连网(Networking),网络(Networks),
工作负载(Workloads),“大象数据流”(Elephant Flows),纵向
扩展(Scale-Up),横向扩展(Scale-Out),跨域扩展(Scale-Across)
2025 年 11 月 7 日,(英国)伊丽莎白女王工程奖(Queen
Elizabeth Prize for Engineering)颁发给了人工智能(AI)革命的
六位关键人物:
Geoffrey Hinton(杰弗里辛顿), Yoshua Bengio(约书
亚·本吉奥), Yann LeCun(杨立昆): 深度学习(deep learning)
的三位创始人;学习笔记
2/19
FeiFei Li(李飞飞): ImageNet 数据集的发起者和空间
智能(spatial intelligence)的先驱;
Bill Dally(比尔戴利): GPU 计算架构的首席设计师;
Jensen Huang(黄仁勋): AI 产业化的最大推动者。
颁奖典礼结束后,六位获奖者进行了一场圆桌对话,核心
主题是:通用人工智能(AGI)真的到来了吗?
虽然没有人给出标准化的定义,也没有人主张这项技术
已经成熟,但是这六位 AI 先驱者从各自的角度表达了相同的
信息:通用人工智能不再是遥不可及的目标,并已经开始在现实
中发挥作用。
其中:
李飞飞的“顿悟”(epiphany)来自数据:人类智能在
其早期发展中被大量的感官数据淹没,但机器不是。难点不只在
算法,而在数据。由此构建 ImageNet 数据集,驱动了机器学习。
黄仁勋给出了一个“堪称绝妙”的回答:在 21 世纪初
的互联网泡沫时期,整个行业铺设了巨量的光纤,但其中绝大多
数都是未被使用的“暗光纤”(Dark Fiber),需求远远跟不上
建设。而今天,几乎你能找到的每一块 GPU,都在被点亮并
投入使用。
毋庸置疑,今天乃至未来,动态生成与即时更新的数据
始终是 AI 的“燃料”。那么:
--- AI 学习和训练的(Input)数据从哪来以及如何来?学习笔记
3/19
--- AI 推理和服务的(Output)数据到哪去以及如何去?
这是不可回避的一个已然显现的“瓶颈”:即 AI 组网/连网
(Networking)技术与传统网络拓扑结构及其应用状况。
事实上,移动通信 4G 在 2010 年的商用化成为了互联网
发展的转折点,其中“暗光纤”(Dark Fiber)的作用至关重要。
目前,AI 已然触发了网络化(Networked)数据量的指数级增长,
“跨域扩展”(Scale-Across)的组网技术以及连网拓扑结构成为
(倒逼)变革网络(Networks)的又一个关键转折点,也使相关
的通信基础设施面临新的挑战。
一、AI 的工作负载(Workloads)
一般而言,人工智能(AI)的工作负载指的是在计算系统
上运行的、与 AI 相关的任务集合及其对硬件资源的需求特性。
这些任务通常具有独特的计算、通信和存储模式,对底层基础
设施(如 GPU、存储、网络)提出特殊要求。
但是,从不同的角度,对 AI 的工作负载及其类型有不同的
侧重点和解释。例如:
IBM 认为,AI 的工作负载是指用于完成人工智能、
机器学习和深度学习系统特定任务的独立计算进程、应用程序及
实时计算资源的集合。更具体地说,AI 的工作负载这一术语
特指那些需要处理海量数据的资源密集型任务,涵盖 AI 模型的
开发、训练与部署全流程。学习笔记
4/19
---在技术底层,独立的 AI 工作负载通过特定计算模式
使人工智能应用能够模拟人类的认知特征,包括理解、决策、
解决问题、创造性思维与自主行动。这些能力本质上对应着人类
学习、思考与得出结论的思维范式。
对于支持研发流程不同的阶段,英伟达(Nvidia)提供
了三种 AI 工作负载类型:
---交互式工作空间(Workspaces),用于数据探索与
模型实验。
---训练(Training),执行模型训练、数据预处理等
密集型计算任务。
---推理(Inference),用于已训练模型的部署与线上
服务。
超级以太网联盟(UEC)于 2025 年 6 月 11 日发布了
“超级以太网技术规范”(Ultra Ethernet Specification v1.0),
其中支撑四种 AI 工作负载类型是:
---AI训练(AIT, AI Training);
---AI推理(AII, AI Inference);
---高性能计算(HPC, High-Performance Computing);
---客户端/服务器(C/S,例如,存储数据流量)。存储
服务器的功能之一是将数据传输至终端节点,是典型的“客户端
/服务器”(C/S)通信模式,其通信协议栈(Stack)通常会将
大数据量的请求拆分为多个小数据块/帧。这些数据块的大小学习笔记
5/19
可在一定程度上根据传输协议进行优化调整。但数据访问模式与
规模主要取决于用户行为,网络系统管理员往往难以直接管控
(例如,大量的客户端同时访问同一存储服务器,多对一的通信
模式)。因而,随机性网络数据流量阻塞(incast)会频繁发生。
二、传统网络规划中的“超强配置”与“超强服务”
在传统网络设计中,有两个相互关联的术语及其应用:
超强配置(Over-subscription),主要表现为网络系统的
工程配置。
超强服务(Overbooking),主要是面向终端用户(销售)。
“超强配置”是网络系统中的一个关键挑战,该问题出现
在数据包无法以线速转发,并导致网络丢包现象:通常源于网络
系统架构限制或设备故障,会在特定网络接口引发数据流阻塞,
最终造成数据包被丢弃。
“超强配置比”是量化超强配置程度的指标,其计算方法
为所有下行(downlink)接口总带宽与所有上行(uplink)接口
总带宽之比。
例如,如果一台交换机的最大转发能力为8 Gbit/s,但配置
了12个接入接口,每个接口都以1 Gbit/s的速度运行,在满负载
时接收12 Gbit/s的数据,超强配置比为1.5:1 (12 Gbit/s ÷ 8 Gbit/s),
就可能会出现数据流拥塞并丢包,且影响网络性能(图1)。学习笔记
6/19
图1 超强配置的网络接入设备(如交换机)
网络设计也可能导致超强配置。例如,如果一台接入交换
机通过10GE链路连接到四台服务器,使下行链路在满负荷时的
汇聚带宽为40 Gbit/s。如果该交换机使用25GE链路连接到核心
交换机,即提供25 Gbit/s的上行链路带宽,超强配置比为1.6:1
(40 Gbit/s ÷ 25 Gbit/s),也会出现数据流拥塞(图2)。
图 2 超强配置的网络设计(如汇聚链路)
因此,“超强配置”通常是指对可能需要的设备、链路或
组件等资源的网络配置超出了实际可用资源,以减少网络建设的
成本。---主要是基于一个假设:根据统计规律,汇聚网络连设备
端口的分布式数据带宽不会并发(Concurrent)达到峰值。学习笔记
7/19
在传统的网络工程中,思科(Cisco)对在网络规划和设计
的建议包括:在接入网络的配置超强比不超过20:1(如,对于
接入交换机上每20个1 Gbps的接入端口,在交换机的上行汇聚
链路可以配置为1 Gbps),在核心网络的配置超强比不超过4:1。
相应于网络工程性的“超强配置”,“超强服务”是基于
终端用户的网络资源共享(销售),其假设是:被服务(汇聚)
的终端用户不会同时连网,或被服务的所有终端用户的连网并发
带宽量在统计上不会超过配置的汇聚带宽。例如,某小区 100 个
用户,网络运营商提供给每户的服务“套餐”是(下行)1,000M
连网带宽,但实际的汇聚(链路)带宽是 1Gbps,即超强服务比
是:100:1。
“超强服务”在一些服务性行业中也有应用。例如,在
航空公司的订票系统中的超强服务比,即某航班的预定机票数量
往往超过该航班的可乘人数,以提高该航班的客座利用率,其
假设是:有些预定机票可能会临时取消。如发生值机无座,旅客
就不得不(有偿)改签。---在网络中即是丢包(packet loss)。
网络工程中的“超强配置”和“超强服务”以及用户端
连网的上行和下行的非对称带宽,既有技术历史遗留问题,也有
网络结构性原因(包括商业和运营模式);同时,亦是网络发生
数据流阻塞的主要根源,并导致丢包和抖动(Jitter,是衡量网络
延迟波动程度的指标,指数据包传输延迟的时间变化量)。学习笔记
8/19
三、现行的传统 IP 网络架构
互联网络历经了 40 多年的沿革,基于 TCP/IP 的网络在
结构和规模上发生了质和量的演变。例如。网络结构及其管理的
扁平化,骨干网络主要承担了互联互通的数据传输(图 3)。
图 3 中国电信的 IP 网络架构
来源:中国电信在 IETF 的演讲稿,2020-7-16
备注-1:在图 3 中,中国电信与“国内的其他网络运营商”
之间的(骨干)网络互联互通,是通过“境外”的网络。
从网络规划和设计的技术角度,公共通信网络一般注册为
“自治系统”(AS:Autonomous System)。换言之,互联网络中
相互连通的基本单元是自治系统,而且自治系统的关联属性与
关系定位分为四种类型:末端,中继,对等,转发(图 4)。学习笔记
9/19
图 4 互联网络自治系统的(“金字塔式”)关联属性与关系定位
来源:互联网数据分析合作协会(CAIDA)
由于(各个)自治系统具有不同的属地管辖、属主管理、
技术自治、利益驱动等因素影响或制约,对网络或互联网络的
(端到端)性能预期和评估往往存在不透明性和不确定性。
例如,“超强配置”和“超强服务”没有统一的规范和
指标,不同地区的终端用户上网习惯和行为(以及所使用的连网
设备差异)不尽相同,往往(点到点)缺乏一致性的统计规律。
尽管网络技术得到持续发展,但是现行的传统 IP 网络在
数据传输方面仍然是继承了“尽力而为”(Best Effort)的模式,
只是丢包和抖动的问题尚在大多数网络应用的可容忍范围。
四、AI 的工作负载和传统的 IT 工作负载之区别
在信息技术(IT)领域,术语“工作负载”(Workloads)
的内涵已不断演进,并在不同语境中承载着差异化语义。一般
而言,工作负载指代的是:为实现特定业务目标所需的系统总体
需求,包括时间与资源消耗的总和。其范畴可从相对简单的独立
计算任务或单一应用程序,延伸至复杂操作 ---例如,大规模学习笔记
10/19
数据分析处理、混合云或公有云服务,乃至整套相互关联的应用
程序与工作流体系的持续运行。
IBM 认为,AI 作为信息技术(IT)工作负载的重要分支,
其工作负载特指与人工智能应用相关的计算任务,包括生成式
AI(如 ChatGPT 这类大语言模型)、自然语言处理(NLP)
以及各类 AI 算法的运行。与其他类型的工作负载相比,AI 工作
负载的独特之处在于其极高的复杂度和处理的数据类型 ---相较
于传统工作负载通常处理的规整数据,AI 工作负载主要处理
图像、文本等非结构化数据。
AI 驱动了网络变革:
机器学习技术应用于网络的自动化管理、监控与安全防护。
相较于静态脚本或人工调整,AI 驱动的网络能够分析海量遥测
数据,学习正常数据流的模式,并实时响应异常事件。其核心
能力包括(但不限于):
---自动化网络管理:采集并分析多样化的网络遥测数据
(包括设备日志、数据流记录、路由状态更新等),其对异常
检测与性能问题的识别速度远超人工运维。例如,机器学习模型
可精准识别异常流量峰值或延迟突变,并在复杂网络拓扑中快速
定位问题根源。这种主动分析的能力有助于在设备故障、配置
错误或安全威胁影响服务和用户之前及时识别。通过将原始数据
转化为深度认知,AI 能够成为了合作团队中的一位专家级
“网络分析师”。学习笔记
11/19
---自我优化:AI 系统具备持续学习与动态调整的能力,
能够精准预测网络拥塞或设备故障,并通过自动重新配置路由
策略与流量路径,实现网络性能的优化。例如,当 AI 模型预测
到某条链路即将达到容量上限时,系统会自动调整部分流量或
进行跨路径负载均衡,而无需等待人工干预。
---闭环自动化:可实现检测与修复紧密集成的闭环工作
流程。当系统检测到异常时,不仅会向网络管理员告警,而且能
在安全检查机制保障下自动触发修复动作,包括自动重置振荡
接口、对 DDoS 攻击数据流实施“黑洞”引流,或根据检测到
的网络拥塞状况动态调整 QoS 策略。随着持续学习,AI 能够
逐步建立问题与解决方案的对应关系,不断优化其决策建议。这
使网络系统逐步具备自我修复能力,从而减少对人工干预的需求。
---增强型安全防护:通过突破传统监控工具的分析范式,
显著强化网络安全防御体系。AI 驱动的安全系统能够从上百万
条日志记录与流量数据中精准定位恶意软件或入侵迹象,其检测
速度远超静态规则,且误报率大幅降低。AI 系统通过持续学习
建立行为基线,可即时标记异常活动(如突发性数据渗漏或 DDoS
攻击模式),并自动执行安全策略;例如,根据威胁告警自动
封禁可疑 IP 地址或隔离受感染设备。这种快速自适应的防御
机制对于应对日益复杂的网络攻击至关重要,通过有效缓解报警
疲劳(alert fatigue)与加速事件响应,为网络安全环境提供
更为坚实的保护屏障。学习笔记
12/19
这些能力使AI驱动的网络变革在效能与可靠性上实现了质
的飞跃。AI 赋能的网络管理平台就如同一位永不停歇的虚拟
工程师,能够在数秒内完成数据关联分析、故障预测与自动处置,
推动网络运维和安全防护从被动响应向主动保障的转型。
网络承载了 AI 发展:
网络是承载 AI 研发和应用所必需的基础设施,特别是在
运行大规模 AI 训练或推理任务的数据中心环境。现代 AI 的
工作负载(例如训练 GPT-5 等深度学习模型)具有高度分布式
特征,需要在成千上万个 GPU 或专用 AI 加速器上并行运行。
这种分布式的计算范式对连接这些计算节点的网络提出了独特
且严苛的要求。这一新兴网络架构的核心需求包括(但不限于):
---高吞吐量与低延迟:AI 集群必须在计算节点间实现海量
数据的极速传输。以神经网络(neural network)训练为例,GPU
之间需要以毫秒级频率持续交换模型参数、梯度值与数据集分片,
每秒传输数据量高达数 10GB。任何网络延迟都会直接影响 AI
性 能 表 现 ; 而 传 统 通 信 网 络 因 延 迟 较 高 或 存 在 超 强 配 置
(Over-subscription),往往成为系统瓶颈。为此,AI 专用网络
架构采用超高带宽链路(通常配备 200Gbps、400Gbps 或更高速
网卡)及低延迟协议,确保 GPU 持续获得数据供给和交付。
事实上,在大规模 AI 训练场景中,据估算:超过 50%的
任务完成时间被消耗在网络通信环节,而非纯粹的计算过程。
这意味着在多数情况下,网络性能直接支配着 AI 任务的完成学习笔记
13/19
速度。在组网中的一条低速链路或阻塞的交换机端口就足以导致
整个训练任务停滞。因此,面向 AI 组网架构的核心使命,正是
为了彻底消除数据传输的瓶颈。
---同步化全互联通信(Any-to-Any communications):与
传统企业网络中多线程异步数据流(如网页请求、数据库查询)
不同,AI 的工作负载需要实现高度同步的全互联数据交换。
假设某个训练任务横跨上千个 GPU 的集群,在特定时间间隔内
(例如完成梯度计算后),每个 GPU 都需要与其他所有 GPU(或
大多数节点)共享运算结果以同步更新参数。这种在分布式训练
中被称为“全局规约”(all-reduce)的多对多运算操作,构成了
密集的全连接网状(fully meshed)通信网络。
网络必须能够承载这种高并发、海量级的全连接数据流量
且确保无阻塞。一旦其中某条传输链路出现延迟,就会迫使其他
节点进入等待状态。这种同步机制意味着计算集群中最慢的一条
传输链路将决定整体任务执行速度。因此,面向 AI 的网络架构
必须构建能实现在任意计算节点间稳定、高速通信的基础设施,
即是被称为的“全互联连接”(any-to-any connectivity)。
为确保网络不存在“超强配置”的阻塞点,通常采用
无阻塞的“完全二叉树”拓扑结构(图 5),并实现 1:1 的数据
传输与交换的配置(即没有超强配置),使网络能够承载所有
GPU 的全数据流量负载而无需(传输数据)排队。无阻塞的
数据交换和传输架构已是(AI 组网/连网技术)必备条件。学习笔记
14/19
图 5 完全二叉树(“胖树”,Fat-Tree)拓扑结构
---超低抖动与零丢包:AI 集群通信不仅对平均带宽敏感,
更是对网络抖动(延迟波动)与数据包丢失具有极高要求。由于
同步运算的特性,即便是微量的丢包也会导致 AI 应用性能急剧
下降。数据包重传(或乱序)引发的延迟会直接阻碍同步操作
流程。因此,面向 AI 的网络必须实现零丢包或近似零丢包的
数据传输。
备注 2:“抖动”也被称为“波动效应”。直观的感受是,
在高速公路上的一辆汽车突然减速或刹车,
| ||
下载文档到本地,方便使用
共 19 页, 还有
1 页可预览,
继续阅读
文档评分










