NEDO 和米乐m6官方网站 (AIST) 正在致力于开发基础技术,以实现与人类共同进化的 AI 系统。他们开发了“机器学习系统质量评估测试台 Alpha 版本(有限功能)”,为人工智能系统提供质量指标和测量流程,并于今天作为开源软件发布给公司、大学和其他组织的开发人员。
通过该测试床,可以定量评估AI系统的质量,并提供开发流程、评估记录、验证等全面支持,有望消除质量不确定性,加速业务利用。
未来,我们将进一步增强质量评估流程通用平台的功能,旨在构建人工智能系统质量管理的生态系统。
为了在现实世界中广泛使用人工智能系统,质量管理至关重要,以确保它们可以放心使用。
新能源产业技术综合开发机构 (NEDO)与人类一起进化的下一代人工智能相关的技术开发项目※1'',米乐m6官方网站 (AIST) 于 2020 年 6 月宣布,``机器学习质量管理指南※2”(以下简称“指南”),全面总结了人工智能系统服务所需的质量管理举措和检查项目。
为了实施本指南所示的质量管理,我们需要一套支持单个质量评价项目的具体质量指标的测量、检查和改进的工具,以及能够集中管理整个工作的工作环境。已经存在多种管理机器学习模型并支持人工智能系统从定义质量要求到运行的生命周期的工具,但到目前为止还没有一个通用平台可以灵活地整合不断开发的新机器学习模型和质量测量技术。
基于这种情况,NEDO 和 AIST 在同一项目下开发了“机器学习系统质量评估测试平台 Alpha 版本(有限功能)”(以下简称“测试平台”),并于 11 月 18 日起在网络上提供。在考虑此开发的规范时,机器学习质量管理审核委员会※3的帮助下(机器学习系统质量评估测试床alpha版本(功能有限)https://githubcom/aistairc/qunomon)
这个测试床由一组支持按照准则测量、检查和改进质量指标的工具以及提供可以集中管理整个工作的工作环境的开源软件组成。此外,我们还构建了一个系统,可以灵活地结合新开发的机器学习模型和质量测量技术。以此为AI系统开发者和AI系统质量评估者提供质量指标等量化评估,并通过构建统一的质量管理流程环境,全面支撑开发流程、评估记录、验证等。通过公开该测试平台并让人工智能系统开发人员以及企业和大学的评估方法开发人员广泛使用,预计将解决质量不确定性并加速人工智能系统的商业利用。
该测试床是由AI系统开发者、AI系统质量评估者和评估方法开发者共同参与的一组软件,融入了AI系统开发过程中用于质量控制的学习、检查等工具,提供了既支持开发过程支持又支持评估记录和验证的工作环境。此次发布的这个测试平台由以下三个要素组成。
○「人工智能系统评估包 (AIT)※4”创作工具
评估方法开发人员使用基于指南的评估指标开发评估测量方法的工具。提供有利于新AIT开发的编辑器和执行引擎。
○质量评估网络服务器
这是一个网络服务器,导入评估方法开发人员开发的 AIT 并执行质量评估。评估技术作为AIT包含在服务器中,评估结果在公共平台上管理应用编程接口 (API)※5
○评估报告创建申请
一款用于改善质量评估人员和 AI 系统开发人员之间沟通的应用。该应用程序允许人工智能系统开发人员在全面管理其数据集和机器学习模型的工作环境中使用图形用户界面轻松创建质量评估报告。

图:机器学习系统质量评估测试床α版本
继续开展 NEDO 的“与人类共同进化的下一代人工智能技术开发项目”,我们将继续增强 alpha 版本测试平台的功能,例如数据预处理、可视化和过程控制跟踪。此外,还可以收集、管理和共享各种AIT在线存储※6,将其与测试床集成,并发布测试版本。此外,通过将已发布的测试平台测试版应用于实用级人工智能系统的评估并积累示例,我们旨在提高指南的可用性并构建人工智能系统质量管理的生态系统。