“东数西算”工程与“南水北调”、“西电东送”、“西气东输”等重大工程一样,都是通过发挥区域资源优势,优化资源配置,提升生产效能与资源使用率的重要举措。其目的即是希望构建更绿色、更平衡和更高效的国家算力网络体系,以满足各行各业数字化转型、数字技术与生活场景所带来的海量计算、传输、存储需求。
通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,推动资源统筹利用,促进东西部协同联动。那么目前,以“东数西算”工程为契机,能够解决算力面临的哪些问题和挑战呢?
1、解决算力分布式使用面临的挑战
“东数西算”工程最为显著的特点就是提出了算力联接网络,异地算力与网络协同工作的实现思路。这种思路希望突破传统计算与数据中心算力提供服务的限制,在目前已经取得广泛成功的大数据中心和云计算平台上实现广域扩展和顶层优化。然而,算力资源传统上来自计算与数据中心的内部资源且集中部署和管理,要满足算力一体化需求,需要算力的无缝分布式使用,业界目前还没有成熟可靠的解决方案。
计算的实施是建立在数据之上的,算力的流动首先应完成高效的数据流动,需要更加完善和先进的数据平台、服务与相关制度。技术层面,可以借鉴数据网格、数据中心网络、广域与分布式文件系统的技术经验,融合新型存储介质与体系架构,推动新一代分布式数据访问协议、存储系统和基础软件(分布式数据库、分布式文件系统)的演进。政策层面,则应进一步加快推动数据要素市场制度建设,推动数据市场化交易模式的落地。
2、解决算力交付方式面临的困境
在云服务中,算力是作为一种IaaS资源被使用与管理。但是单一的云平台调度范围(区域)有限,过大的管理调度范围将导致云业务交付无法确保的服务质量。无论是采用资源交付还是云服务交付都面临困难。前者需要一体化的资源管理平台,实现起来相对简单,对用户要求高;后者需要统一的云服务平台,实现起来将引入更多的服务因素,难度更大。在这方面的探索上,超算互联网正开展一些初步工作。
“十四五”初期就启动了“国家高性能计算环境的领域应用平台及服务体系”项目,构建高速网络连接无锡、广州、北京、天津、深圳、长沙、青岛等地的多个国家级超算中心,集成与研发跨超算资源管理环境、共性应用函数库与工具软件,建立复杂力学体系与量子物理体系、生物与材料、环境治理与灾害防治三个重点领域的应用资源集成与服务集成,探索跨中心的超算社区运行机制与快速响应与协同机制。跨不同计算架构之间的应用有效部署仍是该项目面临的挑战和亟需完成的技术突破。
同时,算力本身存在着位置分散、能力各异和动态变化的特征,导致算力存在度量困难,从而影响构建算力使用的结算体系,进一步损害产业运转。因此,做好算力感知、算力建模及算力评估首当其冲,面向全网的算力资源(计算、存储和网络),开展对各类算力资源的状态、动态性及分布进行分析、度量以及建模,实现基于干扰分析的算力资源评估,作为算力资源发现、交易、调度的依据。
3、解决算力使用面临的安全问题
数据信息传输过程中,物理设施、网络安全、应用安全、数据安全和信息安全等方面可能会面临多重风险。而“东数西算”工程实现的算力资源开放使用则面临着更多的信息安全问题,算力资源在从申请、使用再到结算清退,过程中至少跨越使用方和供给方的边界,一旦有风险,不仅导致算力使用方出现漏洞,也会引发算力供给方的隐患,从而给整个算网资源体系带来风险。
因此,如何在数据开放共享、大范围多方融合应用的需求和场景下实现端到端的安全,需要技术突破和政策制定等多方面努力,例如:采用和部署内生安全的基础设施,合理规划网络的安全区域以及不同区域之间的访问权限,试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,做好网络安全态势监测。