公告/发布日期:2018/06/26

米乐m6官方网站 大规模AI云计算系统“ABCI”超算性能排名全球第5位

-通过大规模、节能的云计算系统实现先进的人工智能处理-

积分

  • 计算节点与冷却系统集成设计实现世界一流性能
  • 适合人工智能 (AI)半精度运算作为实际使用的计算系统,性能是日本最高的
  • 加速人工智能的实际应用,作为大规模高速计算平台,同时提供公开训练的模型和开放数据


摘要

米乐m6官方网站[理事长中钵良二](以下简称“AIST”)信息与人体工学领域将于8月1日开始运营名为“AI Bridging Cloud”的云计算系统(AI 桥接云基础设施,以下简称“ABCI”)是全球超级计算机速度性能排名TOP500 名单全球超级计算机节能性能排名第5位绿色 500 强名单第8名这一成果在德国法兰克福举行的国际超级计算机会议上公布。ISC 高性能 (ISC 2018)”于 6 月 25 日(欧洲中部时间)宣布。

ABCI 是 AIST人工智能研究中心(以下简称“AIRC”)和 AIST/Tokyo Tech 利用真实世界大数据的开放创新实验室 (AIST-东京科技真实世界大数据计算开放创新实验室(以下简称“RWBC-OIL”)设计开发的计算系统,通过公开竞标采用了富士通株式会社(以下简称“富士通”)的技术,并构建在由AIRC和RWBC-OIL设计的AIST柏工厂的AI数据中心大楼内。 ABCI 是高性能和节能领域的最新产品GPU结果计算性能为1988千万亿次浮点运算TOP500名单全球排名第5,作为实际使用的计算系统在日本拥有最高的性能,每瓦12054 gigaflops绿色 500 强名单世界排名第8

未来,我们将在ABCI上提供公开的训练模型和开放数据,并作为人工智能技术研发的大规模高速计算平台,通过产学官的合作,挑战人工智能的社会落地以及人工智能领域最重要的问题。

ABCI 和数据中心大楼外观的详细信息
左:ABCI计算节点机架部分,中:冷却系统部分,右:AI数据中心大楼


发展的社会背景

人工智能技术,尤其是机器学习,需要将大量数据加载到内存中并重复计算以提高准确性,因此计算能力是关键。此外,为了加速人工智能技术的前沿研发和社会落地,我们需要主要由大学和公共研究机构拥有的机器学习等算法、国家和企业拥有的大数据以及使这些组合成为可能的高算力等技术种子。

研究历史

作为经济产业省“人工智能全球研究中心发展项目”(2016 财年第二次补充预算)的一部分,AIST 决定开发一种能够实现先进人工智能处理的大规模、节能云计算系统,并于 2017 年 9 月通过公开竞标采购该系统。作为日本人工智能技术发展的开放式先进高速计算平台,该系统的目标是促进产学官协作和多种企业应用,加快高算力人工智能技术的研发和示范,推动社会落地,应对人工智能领域最重要的挑战。

AIST多年来与国立大学法人东京工业大学(以下简称“东京工业大学”)合作,在高性能计算技术、节能计算技术、大数据计算技术等领域进行研究。2017年2月成立了RWBC-OIL,并在构建节能高性能计算平台等技术方面取得进展。 AIST AI Cloud(AAIC)在2017年6月版的Green 500榜单中排名全球第3位,此次表现强劲的原因在于RWBC-OIL加速研发的能力。此外,还利用了通过支持电力监控的服务器操作技术获得的技术知识。这些努力的结合导致了世界一流、节能的云计算系统的实际应用。 ABCI 由 AIRC 和 RWBC-OIL 采用富士通技术设计和开发。

研究内容

ABCI由一个硬件组组成,该硬件组包括由1088个计算节点组成的高性能计算系统、有效容量为22PB的大容量存储系统、将它们高速连接的网络以及最大限度地利用它们的一组软件。 ABCI核心的高性能计算系统具有以下特点:

  • 在人工智能和大数据领域的计算处理中有效的16位半精度计算性能为550 petaflops,双精度计算性能为37 petaflops,这是目前日本实际使用的计算系统的最高性能。这一高性能是通过安装 NVIDIA 最新的 GPU Tesla V100 实现的,每个节点 4 个单元,总共 4352 个单元。
  • 计算节点和冷却系统均具有世界一流的节能性能。计算节点配备了最新的高性能、节能的 GPU。冷却系统直接利用AI数据中心大楼提供的接近外界温度的冷却水对CPU、GPU等高温核心部件进行冷却,并利用相同冷却水的风冷系统带走余热。通过这些创新,可以用更少的功耗实现高性能。

未来计划

ABCI以其卓越的性能和省电特性而受到认可,将于2018年7月开始试运行,并于8月全面投入运行。全面运营后,我们将建设ABCI使用服务,提供训练好的模型、开放的数据和训练好的数据集。利用ABCI,促进产学官合作和多种企业的使用,加快利用高算力的人工智能技术的研究、开发和示范,促进社会实施,支持对人工智能领域最重要问题的挑战。此外,我们还将开展大数据利用的系统协调技术和大规模数据分析技术的研究和开发,以及识别操作问题并将其与研究联系起来,以推进计算平台建设技术。



术语解释

◆计算节点
构成计算系统的计算机的最小单元。它由CPU、GPU等算术处理单元、内存、二级存储等组成,主要进行计算处理。[返回来源]
◆半精度运算
一种在计算机中表示数值(实数)的方法。以2字节(16位)表示,有效位数约为33位十进制数字。使用最新的GPU,可以比双精度(8字节,大约16位有效数字)或单精度(4字节,大约7位有效数字)更快地执行计算,因此它在机器学习/AI领域的使用正在取得进展。[返回来源]
TOP500 名单
每六个月对全球超级计算机的基准速度性能值进行排名从第 1 到第 500 的列表。
http://wwwtop500org/ [返回来源]
绿色 500 强名单
响应最近的绿色趋势TOP500 名单的超级计算机的功率性能值(速度性能值/功耗)进行了从第1位到第500位的排名。
http://wwwgreen500org/ [返回来源]
◆GPU(图形处理单元
它最初是专用于计算机图形的处理器,但随着图形处理变得更加复杂,其性能和多功能性随之提高,现在已经发展成为用于高性能计算的通用矢量/矩阵处理器。它也被广泛用于加速深度学习。[返回来源]
◆千兆浮点运算 (千兆次浮点运算),万亿次浮点运算 (万亿次浮点运算),千万亿次浮点运算 (千万亿次浮点运算
失败 (FLOPS,每秒浮点运算)表示每秒可以执行的浮点运算数。 Giga(10 的 9 次方)、Tera(10 的 12 次方)和 Peta(10 的 15 次方)是前缀。[返回来源]


联系我们

查询表