什么是算力网络

数据经济的发展将推动海量数据产生,数据处理需要云、边、端协同的强大算力和广泛覆盖的网络连接。算力网络就是一种在云、边、端之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。

什么是算力?

算力是计算能力

算力的定义

随着国家大力发展数字基础设施,算力的提升和普惠变得越来越重要,它注定会在人们的视线中占据很重要的一席。那么算力是什么呢?

所谓算力,简而言之就是设备的计算能力(Computing Power)。小至手机、PC,大到超级计算机,没有算力就没有各种软硬件的正常应用。以PC而言,搭载的CPU、显卡、内存配置越高,一般来说算力就越高。

算力即设备的计算能力
算力即设备的计算能力

算力的衡量

大数据时代,数据和算力都是巨量的,这里先解释一下单位巨大量级的表示方式:K(Kilo)表示103 、M(Mega)表示106 、 G(Giga)表示109 、 T(Tera)表示1012 、 P(Peta) 表示1015、 E(Exa)表示1018、 Z(Zetta)表示1021 、 Y(Yotta) 表示1024

算力的单位,是衡量算力强弱的指标和基准,当前存在多种不同的衡量方法。常见的包括MIPS(每秒钟执行的百万指令数,Million Instructions Per Second)、DMIPS(Dhrystone每秒钟执行的百万指令数,Dhrystone Million Instructions executed Per Second)、OPS(每秒操作次数,Operations Per Second)、FLOPS(每秒浮点运算次数,Floating-point Operations Per Second)、Hash/s(每秒哈希运算次数,Hash Per Second)等。

其中,FLOPS单位一直被视为衡量计算机运算速度的主要指标之一。从量级来看,PC的算力为GFLOPS级别;中国超级计算机神威“太湖之光”的算力为93.015PFLOPS;鹏程实验室的鹏程云脑II(以华为Atlas 900集群为底座)拥有1000PFLOPS的强大算力,相当于数千万甚至上亿台PC的集合。

再举一个Hash/s单位的例子,数字货币比特币挖矿(获取比特币)的矿机每秒钟能做多少次哈希碰撞,就代表这台挖矿机的算力。矿工的矿池,也就是他拥有的所有矿机的算力占比特币全网总算力(所有参与挖矿的矿机算力总和)的比率,代表着他在挖矿竞争中能获胜的概率。PC的算力为GHash/s级别,而目前比特币全网总算力已达到200EHash/s(每日均在波动),按这个比率,现在PC挖矿的成功概率为百亿分之一。

算力的分类

算力按照应用领域,可以分成两大类:

  • 通用算力:计算量小;常规应用,只消耗少量算力。
  • HPC(高性能计算,High-performance computing)算力:计算量大;一个任务,要调用巨多计算资源。HPC是一个计算机集群系统,它通过各种互联技术将多个计算机系统连接在一起,利用所有被连接系统的综合计算能力来处理大型计算问题,所以又通常被称为高性能计算集群。
HPC和通用算力
HPC和通用算力

其中,HPC算力按照应用领域又可以细分为三类:

  • 科学计算类:物理化学、气象环保、生命科学、石油勘探、天文探测等。
  • 工程计算类:计算机辅助工程、计算机辅助制造、电子设计自动化、电磁仿真等。
  • 智能计算类:即人工智能(AI,Artificial Intelligence)计算,包括:机器学习、深度学习、数据分析等。

由于人类将步入智能世界,人工智能算力需求大量增加,并且人工智能也会参与到科学计算和工程计算中。所以,一般情况下,我们也可以简单地将算力分为:通用算力和人工智能算力两类。

算力为什么重要?

智能世界三要素

在智能世界中,智能是知识和智力的总和,智能翻译到数字世界就是“数据+算力+算法”。

智能世界三要素
智能世界三要素

其中算法需要通过科学家研究实现,海量数据来自于各行各业的人和物,数据的处理需要大量算力,算力是智能的基础平台,由大量计算设备组成。

算力需求高涨

据华为发布的《计算2030》预测,2030年人类将进入YB数据时代,全球数据每年新增1YB。通用算力将增长10倍到3.3ZFLOPS 、人工智能算力将增长500倍超过100ZFLOPS。100ZFLOPS的算力是什么概念,1023量级,相当于一百万个中国超级计算机神威“太湖之光”的算力总和。

而这些数据和算力的需求量,将主要来自于未来丰富的计算场景。

未来计算场景
未来计算场景

算力就是生产力

据2022年3月17日,浪潮信息、国际数据公司(IDC)和清华大学联合推出的《2021-2022全球计算力指数评估报告》指出,随着全球数字经济持续稳定增长,数字经济占比预计到2025年有望达到41.5%。同时,国家计算力指数与GDP的走势呈现出了显著的正相关。15个重点国家的计算力指数平均每提高1点,国家的数字经济和GDP将分别增长3.5‰和1.8‰,预计该趋势在2021年至2025年间将继续保持。

计算力的经济影响
计算力的经济影响

并且,当一个国家的计算力指数达到40分以上时,国家的计算力指数每提升1点,其对于GDP增长的推动力将增加到1.5倍,而当计算力指数达到60分以上时,国家的计算力指数每提升1点,其对于GDP增长的推动力将提高到3倍,对经济的拉动作用变得更加显著。

所以,在数字经济时代,算力已经成为拉动国家经济增长的核心引擎。一个国家算力的提升对其经济的拉动作用十分显著,且计算力指数越高,提升作用越明显。

为什么算力需要连成网络?

算力分布更加泛在

算力基础设施从云向算泛在演进,其位置的分布从中心向边缘和端侧泛在延伸,将出现云、边、端三级算力架构。

云、边、端三级算力架构
云、边、端三级算力架构

中心,指的是云计算的数据中心。云计算是一种基于网络“云”的超级计算模式,在远程的数据中心里,成千上万台计算机和服务器联结成一片计算云。各行各业、个人,都通过网络接入云计算数据中心,按自己的需求进行数据存储和数据计算。云计算按部署类型可以分为公有云私有云(如通信云)和混合云,不同的云对应的是不同的用户群体。

边缘,指的是多接入边缘计算(Multi-access Edge Computing,MEC),其概念是相对于云计算而言的,云计算的处理方式是将所有数据上传至计算资源集中的云端数据中心处理,任何访问请求都必须上送云端处理。因此,在面对物联网数据量爆发的时候,传统云计算弊端逐渐凸显:

  • 无法满足海量数据处理诉求:随着互联网与各个行业的融合,特别是在物联网技术普及后,计算需求出现爆发式增长,传统云计算架构将不能满足如此庞大的计算需求。
  • 无法满足实时数据处理诉求:物联网数据被终端采集后要先传送至云计算中心,再通过集群计算后返回结果,这必然出现较长的响应时间,但一些新兴的应用场景如无人驾驶、智慧矿山等,对响应时间有极高要求,依赖传统云计算并不现实。

边缘计算的出现,可在一定程度上解决传统云计算遇到的这些问题。物联终端设备产生的数据不需要再传送至遥远的云数据中心处理,而是就近在网络边缘侧完成数据分析和处理,更加高效和安全。当然,边缘算力的形式也可以是“云”,即所谓的区域云、边缘云。

边缘计算
边缘计算

未来,边缘算力将大于中心算力。

而端侧,指的是终端,即PC、手机、智慧电视,甚至是家庭的机顶盒、智能水电表等一切具备联网和计算能力的设备。物联网时代,将会有海量终端接入到网络中,汇集这些社会闲散设备的存量算力,就是算力共享。也就是从这个意义上来说,算力是泛在的。

算力需要网络调度

因为算力出现云、边、端三级算力架构的泛在演进趋势,算力的分布将不再集中在数据中心,而是广泛地分布在边缘或者端侧的任何位置。

如果所有的这些算力节点之间,没有通过网络互连,这些算力资源是没有办法被共享、被调度、被使用、被协同的。

正如《中国移动算力网络白皮书》中提到的,水力发展离不开水网,电力发展离不开电网,算力发展离不开“算力网络”。算力网络是新型基础实施,要打造“一点接入、即取即用”的社会级服务,最终实现“网络无所不达、算力无所不在、智能无所不及”。

《中国联通算力网络白皮书》中也提到,实现云、边、端算力的高效调度,需要算力网络。具体来说,高效算力必须具备三个关键要素,才能实现数据与算力的高吞吐、敏捷连接和均衡随选。而这三个要素,都必须由网络来支撑。

  • 专业:聚焦专用场景,用更低的功耗和成本完成更多的计算量。例如,在边缘对视频进行高数据吞吐量的分析和处理。
  • 弹性:数据弹性处理,网络为数据需求到算力资源之间提供敏捷的连接建立和调整能力。
  • 协同:资源充分利用,从处理器内部多个核之间的协作,到数据中心内部多台服务器之间的“算力均衡”,再到整个网络边缘的“随选算力”。
高效算力的三个要素
高效算力的三个要素

到底什么是算力网络?

算力网络的定义

互联网、大数据、云计算、人工智能、区块链等技术创新,加速了数字经济的发展。数据经济的发展将推动海量数据产生,数据处理需要云、边、端协同的强大算力和广泛覆盖的网络连接。

算力网络就是一种根据业务需求,在云、边、端之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。算力网络的本质是一种算力资源服务,未来企业客户或者个人用户不仅需要网络和云,也需要灵活的把计算任务调度到合适的地方。

网络的核心价值是提高效率,电话网提高了人类沟通的效率,互联网提高了人类协同工作的效率,算力网络的出现是为了提高云、边、端三级计算的协同工作效率。区别是传统网络直接为人类服务,算力网络直接为智能机器服务,并通过智能机器间接为人类服务。

算力网络构建了海量数据、高效算力、泛在智能之间的互联网络,为每个人、每个家庭、每个组织带来智能。

构建数据、算力、智能之间的互联网络
构建数据、算力、智能之间的互联网络

华为发布的《通信2030》也提到了类似的观点:算力网络代表了从“面向人的认知”向“面向机器认知”(人工智能)的网络设计理念的重要变化,联接海量用户数据与多级算力服务。

算力网络的核心思想是通过新型网络技术将地理分布的算力中心节点连接起来,动态实时感知算力资源状态,进而统筹分配和调度计算任务,传输数据,构成全局范围内感知、分配、调度算力的网络,在此基础上汇聚和共享算力、数据、应用资源。

算力中心呈现多层次,多管理域的布局。不同的算力中心间存在巨大的差异性,从资源的角度看,部署的应用类型、保存的数据集、算力的体系结构可能不同;从管理的角度看,管理策略、计费标准、碳排放标准可能不同。因此,算力网络的建设须面对不同算力中心间的高效协同,算力、数据、应用可信交易与管理机制设计,缺乏一体化标准等挑战,最终构建成为开放的、高资源利用率、高能效的计算基础设施。

算力一张网
算力一张网

算力网络看似是一张网,联接了所有的计算节点,实际是将所有计算节点的算力汇集到一个算力池中,实现算力的“一点接入,即取即用”。

算力网络的功能

算力网络曾经出现CAN(算力感知网络,Computing-aware Network)、CFN(算力网络,Computing First Network or Computing Force Network)、CFN(计算优先网络,Computing First Network)、CPN(算力网络,Computing Power Network)等类似的不同叫法。

不管怎么称呼算力网络这个新概念,都是描述的一个算力资源调度的问题,需要一个对应的算力资源调度的算法来解决。在这个算法中,基本的维度就只有两个:一个是计算、一个是网络。

只是由于5G、边缘计算、人工智能、区块链等新因素带来了新的变量,使得算法需要综合考虑这些方面,从而形成了算力网络的三大功能。

  • 算力路由:网络能感知算力,并为其提供最优算力路由。
  • 算力调度:算网大脑智能编排、弹性调度全网算力资源。
  • 算力交易:基于区块链的算力可信和算力网络交易平台。
算力调度、算力路由、算力交易
算力调度、算力路由、算力交易

算力网络的组成

图1-13所示,算力网络包含了三个部件,除了“算”和“网”以外,还引入了“脑”。

  1. 算:生产算力
  2. 网:连接算力
  3. 脑:统一感知、编排、调度、协同“网络中的算力”
算力网络的组成
算力网络的组成

详细地说,这个“脑”就是:

  1. 看得见:全域态势感知,获取全域实时的算、网、数资源,以及云、边、端分布情况,构建全域态势感知地图。
  2. 调得动:跨域协同调度,将多域协同的调度任务智能、自动地分解给各个使能平台,实现算、网、数的资源调度。
  3. 可组合:多域融合编排,针对多域融合业务需求,基于算、网、数的原子能力按需灵活组合编排。
  4. 有智慧:智能辅助决策,基于不同业务的SLA要求、网络整体负载、可用算力资源池分布等因素,智能、动态地计算出算、网、数的最优协同策略。

算力网络就像是一台“超级计算机”,先汇集了全网的算力,再用“脑”把数据合理地分配到“超级计算机”的每个计算单元中。

算力网络的互联

算力网络的目标很明确,让用户在调用成百上千公里以外的计算资源时的体验与调用隔壁工作站的资源没什么区别。所以,对于算力网络来说,一张具有超大带宽、超低时延、海量连接、多业务承载的高品质网络是关键。那么,如何打造一张为算力连接提供高品质服务的网络呢?

这里必须要关注到算力网络的几个关键特征。

  1. 弹性:算力网络的流量特征与互联网的流量特征不完全相同,对于弹性带宽的需求更加突出。例如,在气象的计算场景中,气象中心每天需要计算1~2次,每次计算2小时,在这2个小时内需要非常大的带宽。那么,对于气象中心来说,更适合的是带宽可调整、时长可定制的弹性连接服务。
  2. 敏捷:算力的泛在和分散的分布,要求算力网络必须具备泛在算力敏捷接入的能力。企业客户或者个人用户接入算力网络来获取计算服务,并不需要关心网络中的算力资源和分布情况,只关心算力是否能够敏捷地获取到。
  3. 无损:算力由网络来实现互联,网络中的每个丢包,甚至在云数据中心内部的分布式计算过程中的丢包,都会造成算力计算效率的下降。据测算,0.1%丢包就会造成50%的算力损失。因此,数据中心内部、数据中心之间的无损传输成为算力网络的一个关键特征。
  4. 安全:数据是计算的核心要素,也是宝贵资产,需要安全输送到算力节点,并安全返回计算结果。安全是算力网络使能到各行各业的一个关键的特征,包括数据安全存储、数据安全加密、算力租户之间数据的安全隔离、外部攻击和数据泄露防护、终端安全接入等。
  5. 感知:算力网络中存在海量的应用(算力的需求方)连接,如何为不同的应用提供差异化的SLA保障,又如何为其中重要的应用提供性能的检测和看护,也是算力网络需要考虑的一个关键问题。感知,就是说网络一方面要能够“感知应用”,另一方面还要能够“感知体验”。综合起来,形成算力网络“应用体验感知”能力。
  6. 可视:在算力网络中,需要建立一张网络数字地图,通过应用、算力、网络三者的映射关系和图层建模,形成算(数字世界)和网(物理世界)高效关系映射。网络数字地图对于网络全景进行了动态绘制和动态刷新,可以实现网络拓扑清晰可视、网络路径透明追踪、故障传播关联溯源,以及在算力网络中基于网络、应用、算力关系映射的应用一键导航。

通过哪些技术来匹配网络的这些关键特征呢?

IPv6+是基于IPv6的网络创新体系,使用体系中的SRv6BIERv6网络切片确定性IP网络DetNet、随流检测IFIT、应用感知APN6业务功能链SFC、智能无损等创新技术,可以打造云、边、端全连接的智能IP算力网络,把算力源源不断地输送给万物。

这里,选取其中一些技术进行介绍。

  1. SRv6满足算力网络的泛在接入和敏捷开通

    因为算力需要向海量用户提供服务,网络需要满足泛在接入的要求。

    传统网络使用MPLS技术,往往采用工单传递、手工配置的方式,逐段开通业务,开通时间长,已无法满足需求;算力网络可以使用SRv6技术,自动化发放业务,业务开通时间从几天减少到分钟级,多段组网变为端到端组网,实现海量业务差异化SLA保障的泛在接入和敏捷开通。

    SRv6满足算力网络的泛在接入和敏捷开通
    SRv6满足算力网络的泛在接入和敏捷开通
  2. 网络切片确保算力网络的无损传输和安全隔离

    在同一张算力网络上,需要为气象、高校、海洋研究所、企业等各种各样不同的业务提供服务,而这些业务对于网络的服务质量要求是不一样的。

    传统网络按照“专线”思维来为不同业务提供差异化服务,VPN“专线”是一种软隔离技术;算力网络可以按照“专网”思维来为不同业务提供差异化服务,网络切片“专网”是一种硬隔离技术。在一张物理的算力网络上,网络切片进行资源切片隔离,形成多个虚拟网络。不同业务在自己的网络切片“专网”上独立传输,实现确定性的无损传输和安全隔离。

    算力网络切片按需规划,首先创建默认切片,所有业务先全部承载在默认切片上;然后对于有特殊需求的业务,基于不同的SLA要求单独创建网络切片。例如,气象中心需要1G带宽保证的虚拟专网,就可以为气象业务单独创建网络切片。

    网络切片确保算力网络的无损传输和安全隔离
    网络切片确保算力网络的无损传输和安全隔离
  3. 随流检测实现算力网络的实时看护和智能运维

    算力网络中存在海量的连接,这么多连接的统一看护和管理,对于网络的运维能力提出新的挑战。

    传统网络的运维方法存在两个个突出的问题:业务受损被动感知,定界定位效率低下。往往用户投诉才能发现业务性能劣化,或者检出网络故障却难以快速定位。

    在算力网络中,使用基于IFIT实现的随流检测,可以彻底改变这一局面。

    随流检测在真实业务流中插入特定的“染色比特”,不仅可以做到精准定位丢包发生的位置,而且可以计算出逐跳时延和抖动,甚至能够进行路径还原,实现对于网络的实时看护和智能运维。

    随流检测实现算力网络的实时看护和智能运维
    随流检测实现算力网络的实时看护和智能运维
  4. 云网安一体构筑算力网络的安全协同防护

    安全是网络稳固的基石,而传统基于网络边界的防护思路,已经无法满足算力网络的需求。

    在不同位置(云、网、端)部署不同的安全设备,堆砌安全产品,互相之间不兼容、不联动,无法适应业务上云后的路径变化,防护效果差、效率低。

    采用云网安一体的安全架构,可以打造“可信一张网”,实现:终端安全、入网安全、网络安全、入云安全、云(平台、应用、数据)安全。

    • 部署乾坤云(安全大脑)+天关(安全边界),提供边界防护、威胁分析、常态化护网等安全服务。
    • 部署安全资源池+安全业务链,提供24小时智能分析和安全专家在线服务、租户级安全云服务、基于SRv6+SFC编排的安全算力和网络的一体调度。
    • 使用自适应量子加密创新方案,实现对于传统互联网IPSec加密机制的升级,提供可多点分发、可灵活组网、量子级密钥、原生级加密的安全保障。
    • 改变“一次验证,永久信任”的接入进制,采用零信任方案,构建身份安全基石,持续验证(永不信任)、动态授权、全局防御。

东数西算织就全国算力一张网

2021年5月,中国提出“东数西算”工程,通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同联动。

2022年2月,国家发改委、中央网信办、工业和信息化部、国家能源局联合印发通知,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。

东数西算
东数西算

至此,全国一体化大数据中心体系完成总体布局设计,东数西算工程正式全面启动。

为什么要东数西算?

关于算力和算力网络的重要性,我们在上文中已经提到:

  • 算力就是生成力,在数字经济时代,算力已经成为拉动国家经济增长的核心引擎。一个国家算力的提升对其经济的拉动作用十分显著,且计算力指数越高,提升作用越明显。
  • 而算力网络的核心思想是通过新型网络技术将地理分布的算力中心节点连接起来,动态实时感知算力资源状态,进而统筹分配和调度计算任务,传输数据,构成全局范围内感知、分配、调度算力的网络,在此基础上汇聚和共享算力、数据、应用资源。

在这个前提下,东数为什么需要西算呢?这里不得不提到数据中心建设和运营的三个关键因素:

  • 土地:数据中心的核心就是各类IT硬件设备,配套电力、安全监控、散热等设施也需要随之部署,数据中心的占地面积会越来越大。据数据显示,单个数据中心的面积达到了60个足球场的面积。这样的占地面积,在寸土寸金的东部一二线城市是不能承受的。相比之下,中西部四五线城市有大块的土地提供给数据中心来建设,成本极低。
  • 电力:数据中心是公认的高耗能行业。据数据显示,电力成本占数据中心运营比例大约为56.7%,而数据中心耗电量占中国总耗电量的比例逐年持续上升,预计2025年将达到4%以上。相比东部地区,中西部地区具备丰富的风电、光伏、水电等清洁能源,且工业用电需求远小于东部城市,因此电价要低得多。
  • 气候:数据中心不但高耗能,而且在运转时会散发大量的热量,如果不能及时通过制冷、散热系统将热量排除,会导致硬件设备宕机。据数据显示,数据中心在降温过程中所消耗的能量占到数据中心总能耗的40%之多。中西部地区,比如数据中心产业发展最好的贵州,全年平均气温为14~16摄氏度,气温低,更适合数据中心的建设。

东数西算的工程建设,也同时在改变国家算力的分布,从这个意义上讲,更体现了算力网络的重要性,对于各地分散算力的互联和高效调度。

因为算力需求集中在东部城市,而数据中心建设地远离需求地,必然会导致数据传输时延增大。这也是为何八大枢纽中存在“京津冀、长三角、粤港澳大湾区”三个东部发达地区枢纽的原因。

  • 对于时延要求高的计算需求,例如自动驾驶、远程医疗等端到端传输时延需要小于10ms,依然会保留在这几个数据中心节点进行处理。
  • 而对于绝大多数非实时或者离线的计算需求,例如云盘数据存取等传输延时可以在30ms以上,东数西算可以大大缓解当前算力需求和供给在东西部不配的问题,实现算力的全国统筹。

东数西算织就了全国算力一张网,构建了“全国一台计算机”,让算力成为公共服务,用户随用随取。

未来,全国甚至全球的算力网络,将帮助人类跨入智能世界,开启一个与大航海时代、工业革命时代、宇航时代等具有同样历史地位的新时代,这也是人类历史上又一个波澜壮阔的史诗级进程。

精彩信息订阅

版权声明
申请合作