新款桌面工作站支持AI中小模型训练


 全国一体化算力算网调度平台有效应对我国算力紧张局面


 全球芯片公司组建人工智能平台联盟探索构建高效AI生态系统


                   

【点睛】


随着AI大模型快速发展,其巨大的参数量和庞大的数据处理量,对计算资源和硬件性能提出了更高要求,同时也需要更加复杂和高效的网络架构和智能算法,以及考虑如何降低能耗、提高计算效率等问题。


对此,各方参与者积极应对,从缩小模型架构、提升硬件设备性能、合理调配资源、建立行业联盟等多个层级不同角度探索更加高效完善的技术解决方案,为未来AI技术的迅猛发展及其在更广泛垂直领域的定制化应用奠定坚实基础。



01


新款桌面工作站支持AI中小模型训练



高级人工智能(AI)任务通常需要数据中心级别的计算性能,例如训练一个万亿参数的大语言模型(LLM)需要数千个图形处理器(GPU)运行数周。目前行业正致力于缩小模型规模并在小型系统上训练,同时保持人工智能模型的高准确性。


近日,AMD和英伟达发布了配备AMD Ryzen Threadripper PRO处理器和英伟达RTX Ada系列GPU的小型桌面工作站,可用于训练此类AI中小模型。


1705308390627646.jpg


英伟达RTX GPU和AMD CPU满足此类中小模型的计算性能需求,为小型工作组或部门提供推理服务,可将AI开发任务脱离数据中心和云资源,用户根据工作负载在本地选择单GPU或多GPU配置。


单个英伟达RTX GPU内存可达48GB,可有效减少数据中心的计算负载,但当本地资源确实不足时,仍可使用英伟达AI Enterprise软件平台将模型训练和部署扩展到数据中心或云端,实现工作流程和工具链的无缝迁移。


AMD Ryzen Threadipper PRO 7000 WX系列处理器提供的CPU平台增加了内核数量(每个CPU最多96个内核),单插槽内存带宽业内领先,与GPU结合后在光线跟踪、AI处理、图形渲染和计算任务等方面的性能显著提高,可有效承担人工智能计算工作负载,适用于3D渲染、产品可视化、模拟和科学计算等任务。

02


全国一体化算力算网调度平台有效应对我国算力紧张局面


目前我国已有百余个AI大模型公开发布,对算力提出了更高且更多样化的需求,与此同时,我国算力总规模已达197百亿亿次/秒,存力总规模超过1080EB。由于对算力的需求多数情况下分布在不同区域,要将算力资源与AI业务有效协同,将不同类型的算力资源高效精准地调度到相应需求的资源节点中,就需要进行算力调度。2023年6月,我国首个实现多元异构算力调度的全国性平台“全国一体化算力算网调度平台”发布。


1705308408870013.jpg


该平台汇聚通用算力、智能算力、高性能算力、边缘算力等多元算力资源,针对通用、智算、超算等不同客户的不同需求,设计异构资源池调度引擎,实现不同厂商的异构资源池的算力动态感知与作业智能分发调度。特别在AI训练作业调度流程中,作业可在智算资源池上进行训练推理,在通用算力资源池部署,从而实现跨资源池/跨架构/跨厂商的异构算力资源调度,目前已接入天翼云、华为云、阿里云等。


1705308426873171.jpg


平台旨在落地国家“东数西算”战略,通过“三跨四互联”(三跨:跨资源池、跨算力厂商、跨算力架构;四互联:通用算力、智算、超算和网络互联),解决算力可管可控可调度问题,不仅有利于促进东部数字经济产业链向西部延伸拓展,同时将推动算力资源的精准配置和按需获取,有效降低算力能源消耗,助力区域协调发展和信息通信行业碳达峰、碳中和目标实现。


03


全球芯片公司组建人工智能平台联盟探索构建高效AI生态系统


随着人工智能迅猛发展,AI大模型应用愈加普遍。由于巨大的参数量和数据处理量,大模型除了对计算资源与硬件性能要求更高,同时还需要考虑如何降低能耗、提高计算效率等问题。近日,全球人工智能行业的一批初创公司宣布成立人工智能平台联盟(AI Platform Alliance),旨在满足可扩展人工智能解决方案日益增长的需求,并克服人工智能训练和推理所需计算能力不断提高所带来的挑战。


1705308444695289.jpg


该联盟的创始成员包括Ampere(美国)、Cerebras Systems(美国)、FuriosaAI(韩国)、Graphcore(英国)、Kalray(法国)、Kinara(印度)、Luminous(美国)、Neuchips(中国台湾)、Rebellions(韩国)和Sapeon(韩国),均为芯片公司,将联合提高硬件功效和成本效率,构建比GPU更高效的人工智能生态系统。


该联盟认为,人工智能训练和部署所需的更高资源利用率可在硬件、软件或标准级别上,通过创新方式实现。硬件方面,芯片制造商可利用现有OEM和ODM平台,联合建立通用制造标准,开发支持多个品牌供应商的机箱。软件方面,芯片制造商可围绕一组通用代码工具和框架进行调整,这样无论底层硬件架构如何,模型均可运行。


(本期图片均来自互联网)




编辑撰写丨张雪

校对丨王薇娜

审核王萃

终审刘达