带来变革的想法必定处于研究的前沿。日本最大的公共研究机构之一 AIST 的官方网络杂志。

开放平台“AI桥云”全面上线

开放平台“AI桥云”全面上线

2018/09/30

开放平台“AI桥接云”全面上线用日本最强算力的“ABCI”解决社会问题!

研究员的照片
    关键点AIST的大型云计算机ABCI(AI桥接云基础设施)已开始全面运营。世界超级计算机速度性能排名TOP500榜单第5名人工智能的社会实施
    目录

    可供各种用户使用,易于进行研发

    ──小川组长,您在 ABCI 的开发和设计中发挥了核心作用。请介绍一下ABCI发展的目的。

    小川随着基于深度学习的人工智能技术的发展,利用AI所能实现的事情也在同时增加。然而在日本,尽管业界兴趣浓厚,但目前的情况是这项技术的引进并没有进展。 ABCI的目的是通过发挥利益相关者的优势并提供测试人工智能快速引入的“场所”来推动人工智能技术的社会实施。

     特别是深度学习需要大量的计算,所以即使你只有算法或大数据,你也无法利用它。如果没有足够的计算能力,很难将两者结合起来并发展成实际的应用开发和应用技术。 ABCI的目的是为此提供一座“桥梁”,并提供一个环境,让大数据持有者(例如政府和积累算法相关技术种子的企业和机构,如AIST、大学、国家和企业研究机构)可以合作推进研究和开发。

    ──ABCI的角色与AIST之前的AI计算系统有何不同?

    小川AIST 自 20 世纪 80 年代以来一直在开发超级计算机。前年年底,我们推出了 AIST AI Cloud(AAIC)作为原型,其规模约为 ABCI 的十分之一。由于性能限制,AAIC仅向通过联合研究等方式与AIST直接合作的公司和机构的用户开放。另一方面,ABCI 可以被拥有自己的数据、种子和独特目标的企业和机构用户广泛使用。换句话说,通过追求更高的算力,ABCI已经成为一个可以灵活容纳更广泛用户的系统。

    世界第五,计算能力日本第一

    ──请介绍一下ABCI系统的特点。

    小川ABCI主要由两个系统组成:由1088台计算服务器组成的高性能计算系统和22PB(PB)的大容量存储系统。

     每台计算服务器均配备两个Intel高性能CPU和四个NVIDIA最新GPU,以及384GB内存和16TBSSD。 ABCI整体的半精度浮点运算理论最大性能达到550 petaflops,这在人工智能和大数据处理领域特别有用。它还具有极高的整体计算性能,双精度运算为 372 petaflops,单精度运算为 75 petaflops。 ABCI 是目前日本唯一能够同时为 100 个研究小组提供数 petaflops 计算资源的系统。

    ──ABCI在全球计算机速度性能TOP500排行榜中排名第5。

    小川说实话,听到这个结果我们松了口气,但我们并不太重视这个排名。 TOP500只是科学技术计算基准的排名,我们认为利用AI应用进行大规模计算的结果更重要。此外,ABCI 的开发重点是促进需求更大的中等规模使用,而不是所谓的超级计算机等大规模使用。当然,要实现这一点,计算机系统本身必须稳定,所以我们相信我们能够通过像TOP500这样的基准测试来证明系统的稳定性。

    ──能否用通俗易懂的方式告诉我ABCI的算力是多少?

    小川一个 ABCI 能够执行连接数万台普通 PC 的规模计算。

    ──节能绩效排名(Green500)全球第8位。

    小川Green500是一个节能性能排名,没有考虑冷却所需的功率,虽然它很有用,但我们认为在考虑整个系统的节能性能时它只是一个部分指标。事实上,ABCI的研发是由人工智能研究中心的人工智能云研究团队和RWBC-OIL进行*1一起工作,我们从如何为AI创建高密度、节能、大规模的基础设施的问题开始。

     据了解,截至2016年底,国内数据中心每个服务器机架的供电能力和冷却能力平均为287kVA(千伏安),2010年后建成的数据中心平均为602kVA*2如果要容纳1088台ABCI计算服务器,每台消耗高达2kVA,则需要超过360个服务器机架和空间来安装它们,这是不现实的。为此,我们设计并建造了一个高密度、节能的数据中心(人工智能数据中心大楼),假设引入ABCI系统,每平方米的负载能力为2吨,每个服务器机架的供电和冷却能力为70 kVA。

     AI数据中心大楼为一层建筑,地面为混凝土板,施工非常简单,以较低的成本实现承重性能。此外,在AI数据中心大楼中,我们构建了使用32°C高温冷却水的直接液体冷却和使用相同冷却水的空气冷却的混合系统,使得每个服务器机架能够提供高达70 kVA的冷却。冷却水全年通过位于建筑物外部的冷却塔进行自然冷却,从而显着降低电力消耗。关于电力效率,有一个指标称为“PUE(电力使用效率)”,其计算方法是数据中心使用的总电力除以计算机系统使用的电力。在正常的数据中心,即使系统再好,这一指标最多也只有14到15,而农银国际即使在夏季最恶劣的条件下,该指标也能达到11左右,体现了设计上优异的节能性能。

     通过这些创新,ABCI 现在每个服务器机架可容纳 34 台计算服务器,32 个机架中总共可容纳 1088 台计算服务器。顺便说一下,每个服务器机架的 IT 设备重量不足 1 吨。如果安装在传统数据中心内,则需要多 10 到 20 倍的服务器机架和空间,以及至少 3 到 4 倍的冷却功率。

    与从公司到学生的广泛用户合作

    ──促进协作的方法有哪些?

    小川首先,我们正在推广一项名为“ABCI Grand Challenge”的计划(参见第 6 页)。这为一个研究小组提供了一天 24 小时免费使用全部 1,088 个 ABCI 系统和 4,352 个 GPU 的权利。虽然时间很短,但一次性使用全部 1088 台机器可以解决极其大规模和复杂的问题,因此我们设想工业界、学术界和政府将共同​​努力解决需要大规模计算并对工业界产生重大影响的重要问题,例如药物发现。

     我们还计划提供多种协作方式,例如HPCI协作以及用于联合研究。 HPCI是以RIKEN的K计算机为中心,连接国内9所大学和日本海洋地球科学技术机构的计算机中心的相互使用的框架。 AIST自HPCI运营开始以来一直作为系统组件组织参与并负责主要中心运营,但ABCI也计划从2019财年起成为可供HPCI用户使用的系统。

     此外,虽然与协作有点不同,但我们也在考虑演示 AIST to B to C 模型。这里的B指的是使用ABCI提供云服务的企业,虽然AIST向该企业提供计算机资源,但也设想该企业提供的服务的用户,例如学生,也将能够单独使用ABCI。如果这成为现实,研究人员和学生等用户将能够更方便地使用深度学习实验和应用开发所需的开发环境,国内创新有望进一步加速。它还将有助于增强B to C业务的竞争力。

    加速计算创建新应用

    ──除了药物发现之外,您预计还有哪些应用领域?

    小川如今,各地正在积极进行尝试和错误,以利用来自各种传感器的图像、视频、音频、文本和信息等各种数据的深度学习来实现识别、异常检测和未来预测等有价值的信息处理,可以说应用无处不在。 ABCI 足够大,可以供许多研究人员同时使用,因此您一旦有了想法就可以尝试这种类型的试错。

     在许多情况下,使用 ABCI 加速处理会改变应用程序的重要性。例如,如果普通计算机需要一周的时间来处理驾驶汽车时收集的传感器数据,那么 ABCI 只需 10 分钟即可完成,并且在 10 分钟内它可以用来通知在道路上行驶的人们这里发生了事故或事件是什么。

     此外,深度学习技术仍处于发展阶段,凭借庞大的数据量和强大的计算能力,有望取得突破,应用领域将大幅扩展。例如,当前深度学习的巨大成功归功于“监督学习”,它使用预先被标记为正确的数据。另一方面,大多数现实世界的数据都是未标记的。利用此类数据的“无监督学习”需要比“监督学习”收集更多数量级的数据并执行更多数量级的学习处理。 ABCI可能成为此类新技术、新应用的技术驱动力。

    ──我听说人工智能研究中心正在尝试利用人工智能来分析工厂和服务业现场积累的知识,并利用它来增强日本的工业实力。

    小川是的,我们目前正在 AIST 海滨城市中心建造一座实验建筑,模拟便利店或工厂的真实空间。计划通过100Gbps高速网络连接滨水城市中心和ABCI所在设施,利用该网络将实验楼产生的数据发送至ABCI,安全存储在大容量存储中,用于应用开发,最终实现社会实施。

    ──“AI桥云”这个名字象征着ABCI的角色。

    小川最终目标是将AI技术与产业连接起来,并在社会中落地,所以我们以它的名字来命名。

    在ABCI的发展过程中,我们独立进行了数据中心的开发以及高性能计算系统的建设和引进,旨在将创建数据中心的技术以及将要引进的高性能计算系统的建设和运行技术建立为可转让的基础技术。这也是因为我们希望能够转移支持AI的计算基础设施技术,以应对市场的多样化需求。我们认为,社会实现的一种形式是支持人工智能的计算基础设施扩展到私人数据中心等,并且让ABCI开发的应用程序和学习模型可以在任何地方使用。

    ──您运营它的目标是什么?

    小川这与之前的答案相关,但其想法是让以促进技术转让的方式开发应用、新的计算方法、学习模型等成为可能。特别是,ABCI引入了一种易于使用的包装系统,称为容器,以实现可移植性和互操作性,允许在ABCI上创建的软件被其他用户重用并在其他计算机系统上使用。我们还计划开发和提供数据基础设施,以促进数据和学习模型的安全使用。

    ABCI 创造了一个让您可以轻松利用世界一流计算和数据处理能力的环境。我们希望您考虑使用 ABCI,不仅将其用于高级研究和开发,而且还可以将其作为尝试早期引入 AI 的场所。

    ABCI 系统概述”class=
    ABCI 系统概览
    如需了解更多信息,网站

    *1:AIST 与东京工业大学合作推进的现实世界大数据利用开放创新实验室[返回来源]
    *2:IDC 日本“国内数据中心电力容量调查结果”(2016 年 12 月 8 日)[返回来源]

    人工智能研究中心
    人工智能云研究团队
    研究组组长
    AIST-东京科技现实世界大数据利用开放创新实验室 (RWBC-OIL)
    实验室副主任

    小川弘隆

    小川弘隆

    研究组组长小川弘隆的照片

    请随时与我们联系

    日本科学技术协会
    信息人体工学领域
    人工智能研究中心
    • 东京都江东区青海 2-3-26 135-0064
    • airc-info-ml*aistgojp
      (发送前请将*更改为@)
    • https://wwwaircaistgojp/

    对本文的反应

    •  

    •  

    •  

    分享这篇文章

    • 与 X 分享
    • 在 Facebook 上分享
    • 在 LINE 上分享

    对于那些对发表的文章、与 AIST 的合作、介绍的技术、研究成果等感兴趣的人

    AIST 杂志中介绍的案例、结果和主题是 AIST 进行的研究和合作成果的一部分。
    如果您对已发表的文章有任何疑问或对 AIST 的研究内容、技术支持、合作等感兴趣,请联系我们
    请随时使用查询表与我们联系。

    国立产业技术综合研究所

    版权所有 © 米乐m6官方网站 (AIST)
    (日本公司编号 7010005005425)。保留所有权利。