通知

通知文章2024/10/10

大规模AI云计算系统“ABCI 20”更换为“ABCI 30”
-以ABCI 30加速尖端生成式人工智能的技术发展和社会落地-

积分

  • 2025 年 1 月中旬开始全面发布“ABCI 30”
  • 半精度的峰值性能为 62 exaflops,单精度的峰值性能为 30 exaflops,比以前的系统快 7 到 13 倍
  • 优先提供包括生成式人工智能在内的尖端人工智能技术的研发、评估和人力资源开发

概览图

ABCI 30

摘要

AIST集团(米乐m6官方网站(以下简称“AIST”)和AIST Solutions Co, Ltd)将于2025年1月中旬开始公开大规模AI云计算系统“ABCI 30”。

ABCI 30是常规系统GPU将更换为配备6128个更高性能、更低功耗的最新GPU的计算服务器以及全闪存存储系统。这种替换将峰值性能降低了一半准确性62 练习触发器,单精度 30 exaflops,比传统系统强大 7 到 13 倍。此外,存储容量和理论读/写性能提高了一倍以上。

ABCI 30 的全面发布预计将加速包括生成式 AI 在内的尖端 AI 技术的研发、评估和人力资源开发。

 

发展历史

传统系统“AI桥接云基础设施20(以下简称“ABCI 20”)”是AIST为了加速日本人工智能技术的发展而设计和开发的计算系统。它安装在AIST柏中心的AI数据中心大楼内,并于2021年5月开始运营。随着AIST研究成果利用支持法人AISol的成立,ABCI 20运营将于2024年4月起转移至AISol,由两家机构共同运营。迄今为止,国内使用ABCI 20的机构已经取得了显着的成果,包括成功构建了构成世界级生成人工智能基础的大规模语言模型。

另一方面,随着日本产学界和政府对生成式人工智能开发的需求迅速增加,出现了使用开始前等待时间过长、无法确保开发所需资源等问题。此外,生成式人工智能的发展仍处于起步阶段,目前主要集中在自然语言上。为了将其应用于制造业和所有其他行业,开发基于现实世界的模型非常重要,这些模型是使用从现实世界获得的大量图像、声音、传感数据等构建的。这些世界级前沿人工智能技术的研发和应用示范,迫切需要更高的算力保障。

AIST目前正在开发ABCI 30(采购名称:“用于现实世界基础设施模型开发的大型云平台”),它是ABCI 20的后续系统,作为经济产业省“准备有助于加强生成AI基础开发能力的计算资源”(于2021财年修订)的一部分。 ABCI 30是利用ABCI现有技术资产替代ABCI 20的系统,由AIST集团设计和开发,采用日本惠普公司的技术。

 

ABCI 30的主要特点

1) 766 台最新高性能、节能 GPU 服务器

GPU服务器“计算节点(H)”配备了最新的高性能、省电GPU“NVIDIA H200 SXM5”,每台服务器8台,766台共计6128台。因此,ABCI 30 的峰值性能将是半精度 62 exaflops(大约是之前速率的 7 倍)、单精度 30 exaflops(大约是之前速率的 13 倍)和双精度 415 petaflops(大约是之前速率的 7 倍)。

计算节点照片(H)

计算节点(H)由日本Hewlett-Packard LLC提供

2) 大容量/高速全闪存存储系统

QLC(四级单元)高密度闪存存储,并配备物理容量75PB的大容量、高速存储系统。与传统系统相比,存储容量和理论读写性能提高一倍以上,安装空间更小EIA标准机架的单位数量是70%。这有望提高传统上读写性能瓶颈的大规模数据处理性能,并有效利用有限的数据中心空间。

3) 类似于传统 ABCI 的易于使用的服务

利用AIST集团多年来培育的ABCI技术资产,我们将为用户提供易于使用的服务。除了提供可让您立即开始 AI 开发的软件堆栈外,它还通过重用经过训练的模型使 AI 开发变得更加容易。人工智能中心”服务。另外,门户网站“按需打开的推出,我们还提供了一个环境,允许通过网络浏览器轻松进行基于 GUI 的操作。

所提供的计算资源和使用的服务的详细信息将适时在 ABCI 网站上公布。
https://abciai/ja/

 

关于使用 ABCI 30

ABCI 30 将以与市场一致的价格提供,但会打折,以便专注于“基础模型、生成式 AI 和多模态 AI 等尖端 AI 技术的研发、评估和人力资源开发”。具体来说,我们将引入“标准使用”和“加速开发使用”两级定价体系,前者根据市场价格制定,后者按市场价格的1/2定价。加速开发使用以应用为基础,在对用途的适合性、开发的开放性、用户和资源的属性等进行审查后,只有符合要求的使用才会被认证。

每个计算节点 (H) 2024 年的使用费如表 1 所示。不过,作为 2025 年 3 月之前的过渡措施,“开发加速使用”等级费用将适用于所有使用,并且从 2025 年 4 月起将应用新的两级费用制度。

票价舱位 使用表 每小时费率
标准用法 批次 3300日元
预订 4950日元
加速开发使用 批次 1650日元
预订 2475 日元

表 1 2024 年 ABCI 30 使用费(摘录)

*“批量”是一种尽力而为的使用类型,根据服务的拥塞情况,您可能需要等到才能开始使用它,并且可以继续使用它的时间有限制。通过“预留”,用户占用计算资源,因此没有像批处理那样的限制。
*也可以只使用一个GPU、仅使用一个CPU、使用共享存储,这些费用将单独确定。

 

未来计划

ABCI 30 将于 2024 年 10 月起分阶段推出,部分系统将于 11 月开始试运行,旧系统的更换计划于 12 月完成。之后,经过各种调整,我们计划在 2025 年 1 月中旬以“ABCI 30”的形式开始全面发布。

ABCI 30将构建并提供先进且易于使用的人工智能开发环境,并推进构建基础模型时可使用的数据组的准备,为日本生成式人工智能开发能力的提高做出贡献。此外,通过与国内云提供商分享我们的人工智能开发环境和计算基础设施建设知识,我们将为增强从计算基础设施到提供生成式人工智能服务等广泛行业的竞争力做出贡献。

ABCI 30将用于先进的人工智能研发,例如利用AIST的真实图像、声音和3D点云等数据开发物理领域的基础模型,以及结合这些数据的多模态生成式人工智能的构建和应用,并计划用于日本产学界和政府的各种生成式人工智能技术的研发。

 

预定在展览会等上展出

ABCI 30 计划从 2024 年 11 月起在部分系统上试运行,并于 2025 年 1 月中旬全面上市。在全面上市之前,AIST 集团计划在多个展览和讲座中介绍 ABCI 30。

◆CEATEC 2024(2024年10月15-18日)
官方网站:https://wwwceateccom/ja/
●会议与活动“企业领导者如何看待生成式人工智能?”
2024 年 10 月 18 日 13:30-14:30
幕张展览馆 A 厅
https://wwwceateccom/ja/conference/detailhtml?id=2563
●产业技术综合研究所展位研讨会(共2次)
2024 年 10 月 15 日 12:20-12:50
2024 年 10 月 18 日 14:45-15:15
幕张展览馆 7 号馆,展位号 7H410

◆NVIDIA AI 峰会(2024 年 11 月 12-13 日)
官方网站:https://wwwnvidiacom/ja-jp/events/ai-summit/
●[SJP1063] Sovereign AI的日本战略与ABCI30
2024 年 11 月 13 日星期三 14:00 – 14:40
东京皇家王子大饭店花园塔 B2F

◆SC24(2024 年 11 月 17 日至 22 日)
官方网站:https://sc24supercomputingorg/
乔治亚世界会议中心(美国乔治亚州亚特兰大)
B 厅,3701 号展位(AIST 展位)
 
 

术语表

GPU(图形处理单元)
专用于计算机图形的处理器,可以并行执行许多计算。随着图形处理变得更加复杂,其性能和多功能性也随之提高,如今它们已发展成为用于高性能计算的通用矢量/矩阵处理器。它也被广泛用于加速深度学习。[返回来源]
准确性
如何在计算机中表示数值(实数)。双精度以 8 个字节(约 16 个有效位)表示,单精度以 4 个字节(约 7 个有效位)表示,半精度以 2 个字节(约 33 个有效位)表示。使用最新的GPU,半精度/单精度算术处理比双精度快得多,并且其在机器学习和人工智能领域的使用正在取得进展。[返回来源]
触发器
FLOPS(每秒浮点运算)是一秒内可以执行的浮点运算的数量。 Exa 表示 10 的 18 次方,peta 表示 10 的 15 次方。[返回来源]
QLC(四级单元)
闪存,可在 1 个单元中存储 4 位信息。虽然其耐用性不如传统的MLC(Multi-Level Cell)和TLC(Triple-Level Cell),但其特点是成本低、容量大。[返回来源]
EIA(电子工业协会)标准机架
容纳数据中心使用的服务器和网络设备的机架标准。一个单位的定义为 19 英寸宽、175 英寸高。[返回来源]
人工智能中心
ABCI 上提供的一组用于重用大规模通用训练模型的工具和服务。[返回来源]
打开点播 (OOD)
俄亥俄州立大学开发的一项网络服务,并作为开源提供,用于通过网络浏览器使用超级计算机。 ABCI 20 自 2024 年 8 月起一直提供 Open OnDemand 测试版,ABCI 30 将继续提供。[返回来源]
 

相关文章