新闻

通知文章2021/05/10

大规模AI云计算系统“ABCI”升级为“ABCI 20”
-产官学联动,加速人工智能研发、示范和社会落地-

积分

  • “ABCI 20”于 2021 年 5 月 10 日 13:00 正式发布
  • 峰值性能是单精度2260千万亿次浮点运算半精度达到 8515 petaflops,是传统系统的 15 至 3 倍
  • 加速先进人工智能研发、应用示范以及国内大型数据控股公司对ABCI的利用

摘要

米乐m6官方网站[会长:石村和彦](以下简称“AIST”)信息工效学部[所长:关口聪]已于下午 1:00 开始全面提供大规模 AI 云计算系统“ABCI 20”。 2021 年 5 月 10 日。

常规系统“AI桥接云基础设施(以下简称“ABCI”)”是AIST为了加速日本人工智能技术的发展而设计和开发的计算系统。它安装在AIST柏中心的AI数据中心大楼中,并于2018年8月开始运行。迄今为止,国内一家公司使用ABCI在深度学习方面实现了全球最快的计算速度,许多机构使用ABCI都取得了显着的成果。此外,人们对独特的省电操作也很感兴趣。另一方面,开通两年多以来,由于需求高于预期,用户开始使用服务需要等待很长时间等问题。此外,需要大规模数据处理的先进人工智能研究、开发和应用演示需要更高的计算能力。

针对这些问题,ABCI 20 引入了 ABCIGPU我们加强了计算服务器,配备了 960 个最新的高性能、节能 GPU 和存储系统。 ABCI 20将与传统系统集成运行。通过此次增强,双精度峰值性能将达到 566 petaflops,单精度峰值性能将达到 2260 petaflops,半精度峰值性能将达到 8515 petaflops,是传统系统峰值性能的 15 至 3 倍。此外,存储容量将增加约15倍,理论读写性能将增加约一倍。

ABCI 20的全面发布预计将加速先进人工智能的研发、应用示范以及国内数据控股公司对ABCI的利用。

图1

左:ABCI 的外观,右:添加的计算服务器的一部分

 

背景故事

AIST 开发了“AI Bridging Green Cloud Platform(以下简称“扩展系统”),它是 ABCI 的扩展系统,作为经济产业省“人工智能桥接基础设施的扩展”(2019 财年补充预算)的一部分。该扩展系统是由AIST人工智能研究中心、AIST信息和人体工学部门、AIST-东京技术利用现实世界大数据的开放创新实验室和数字建筑研究中心设计和开发的,是一个利用现有资产并与ABCI集成的系统,并采用了富士通有限公司的技术。

该扩展系统于 2021 年 3 月推出,与传统系统相结合,经过试运行,从下午 1:00 起以“ABCI 20”的形式全面发布。 2021 年 5 月 10 日。

 

“ABCI 20”的特点

1) 120 台最新高性能、节能 GPU 服务器“计算节点 (A)”
“计算节点(A)”配备了最新的高性能、省电GPU“NVIDIA A100 SXM4”,每台服务器8台,总计960台。这使得 ABCI 20 在双精度下的峰值性能为 566 petaflops(增加了 193 petaflops),在单精度下为 2260 petaflops(增加了 1510 petaflops),在半精度下为 8515 petaflops(增加了 3008 petaflops)。这比传统系统的峰值性能高出 15 至 3 倍。

2) 实现与传统系统集成运行的大容量存储系统
通过增加112PB的大容量存储系统,并与已运行的传统系统的存储系统实现相互访问,我们实现了ABCI 20的集成运行。与之前的系统相比,本次扩容将使存储容量增加约15倍,理论读写性能增加约2倍。这有望提高大规模数据处理的性能,而存储的读/写性能传统上一直是瓶颈。

3) 世界一流的省电运行
服务器和散热系统均具有世界一流的节能性能。 “计算节点(A)”配备了最新的GPU,具有高性能的单位功耗。与传统系统一样,冷却系统使用人工智能数据中心大楼提供的温度接近外界空气的冷却水,直接对发热的CPU、GPU和内存等核心部件进行冷却,并通过使用相同冷却水的风冷系统去除余热。通过这些创新,可以用更少的功耗实现高性能。

ABCI 20 计算资源列表发布如下。
ABCI 计算资源:https://abciai/ja/about_abci/computing_resourcehtml

 

未来计划

AIST 将利用 ABCI 20 促进其在工业界、学术界、政府和各种企业中的使用,并加速利用其高计算能力的人工智能技术的研究、开发和示范,从而促进社会实施。在AIST,我们正在构建高度通用的大规模机器学习模型并开发其使用技术,目的是开发易于构建的人工智能技术。 ABCI 20也将用于该技术开发。此外,我们还将研发利用大数据的系统协调技术和大规模数据分析技术,识别操作问题,提高包括下一代ABCI施工技术在内的数字建筑核心技术的成熟度。

此外,AIST 将挑战 ABCI 20 的能力极限,以支持应对人工智能领域最重要的挑战。ABCI 大挑战”项目每年举办3次(预计2021年6月、9月、12月举办)。该计划为一个研究小组提供了使用 120 台最新高性能、节能 GPU 服务器(NVIDIA A100 SXM4 960 单元)的机会,这些服务器现已普遍提供,最长可免费使用 24 小时。我们期待日本人工智能研究人员的大胆挑战。

 

此事的联系信息

国立产业技术综合研究所
信息与人体工程学领域数字建筑研究中心
研究总监小川弘隆
国立先进产业科学技术研究所海滨城市中心别馆,东京都江东区青海 2-4-7 135-0064
电子邮件:abci-application-ml*aistgojp(使用前请将*更改为@。)

 

术语解释

◆双精度、单精度、半精度
如何在计算机中表示数值(实数)。双精度以 8 个字节(约 16 个有效位)表示,单精度以 4 个字节(约 7 个有效位)表示,半精度以 2 个字节(约 33 个有效位)表示。使用最新的GPU,半精度/单精度算术处理比双精度快得多,并且其在机器学习和人工智能领域的使用正在取得进展。[返回来源]
◆千万亿次浮点运算
FLOPS(每秒浮点运算)是一秒内可以执行的浮点运算的数量。 Peta 的意思是(10 的 15 次方)。[返回来源]
◆GPU(图形处理单元)
它最初是专用于计算机图形的处理器,但随着图形处理变得更加复杂,其性能和多功能性随之提高,现在已经发展成为用于高性能计算的通用矢量/矩阵处理器。它也被广泛用于加速深度学习。[返回来源]
◆ABCI大挑战
由 AIST 运营的公共挑战计划,旨在鼓励使用 ABCI 对人工智能领域最重要的问题提出挑战。所选项目将有权使用最多 120 个计算节点(A)节点(960 个 GPU),或最多 1088 个计算节点(4352 个 GPU)计算节​​点(V),这些节点现已普遍可用,最长使用时间为 24 小时。
ABCI Grand Challenge 2021 公开招募指南 [返回来源]

[相关文章]