6月13日,阿里云宣布推出云基础设施处理器CIPU(Cloud Infrastructure Processing Unit ),这是为新型云数据中心设计的专用处理器,将替代CPU成为云时代IDC的处理核心。它可对计算资源进行云化加速,并可部署飞天操作系统对云资源进行管控。阿里云智能总裁张建锋表示,云计算进入了一个关键突破期,今年要Back to Basic,坚持在技术的长征路上,不断取得突破。
云基础设施处理器CIPU(Cloud infrastructure Processing Units ),是阿里云为新型云数据中心设计的专用处理器,用于加速和管控计算资源,将替代CPU成为云时代IDC的处理核心。在这个全新体系架构下,CIPU向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,管控阿里云全球上百万台服务器。
1、CIPU的三大特性:
l 网络:对高带宽物理网络进行硬件加速,通过建设大规模的eRDMA分布式高性能网络,实现RDMA技术的普惠化;
l 存储:对存算分离架构的块存储接入进行硬件加速,提供超高性能的云盘;
l 计算:快速接入不同类型资源的神龙计算平台,带来算力的“0”损耗,以及硬件级安全的加固隔离。
2、为什么要有CIPU?
过去十多年,云计算技术发展经历了两个阶段:
l 第一阶段是分布式技术,推动互联网企业从大机向分布式系统整个迁移;
l 第二阶段诞生了资源池化技术,通过计算存储分离的架构,对资源统一的调度编排,提高云计算的可靠性和可用性。
这两个阶段都是以CPU为中心的计算体系架构,解决了部分计算的需求。但云上客户的需求发生了巨大的变化,就像内燃机发明之后,人类对载具速度的想象力从马车时代进入了汽车时代。
随着数据密集型计算越来越多,传统以CPU为中心的计算体系架构无法适应这一趋势:
第一,以CPU为中心的架构导致了计算和网络传输的时延大;
第二,大数据应用增多,导致数据中心内部数据迁移量增多,以CPU为中心的架构无法提供高带宽;
第三,管理的基础设施规模越来越大,阿里云在全球27个国家和地区、84个可用区管理着超过上百万台服务器,基于CPU为中心的架构无法解决超大规模的复杂管理问题。
为了解决以上问题,需要对数据中心内部的云计算体系架构进行改革创新,从以CPU为中心的体系架构进入以飞天操作系统+CIPU为中心的体系架构。
3、CIPU带来哪些改变?
基于CIPU和飞天操作系统的新一代云计算架构体系,无论是在分布式应用还是人工智能的场景测试中,都展现了优越的性能。
存储方面,通过全硬件虚拟化和转发加速,存储时延最低可至30us(PLX),IOPS高达300万,存储带宽可达200 Gbps,全面超越市面上所有云产品,云端能提供比本地更安全可靠且高性能的存储能力。
网络方面,基础带宽从100G升级至200G,VPC的PPS转发性能从2000万提升至4000万,网络时延从22us降低至16us,RDMA协议下更可低至5.5us。应用上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%。
计算方面,单容器虚拟化消耗减少50%,虚拟化容器启动速度快350%。主流通用计算场景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%。大数据和AI 场景下,AI深度学习场景训练性能提升30%,Spark计算性能提升30%。同时,神龙计算平台可以提前预测80%的硬件故障,并进行无感热迁移规避,从而实现了业界领先的高可用SLA。