- 为生成的 AI 制定质量管理指南并作为公共文档发布
- 系统地介绍了使用大规模语言模型 (LLM) 作为组件来开发和运营生成式 AI 系统的公司需要采取哪些措施来实现质量
- 有助于确保使用 LLM 的生成式 AI 系统发挥作用并保持开发者和用户期望的高质量

基于大规模语言模型的生成式人工智能质量管理的目标和难点
米乐m6官方网站 (AIST) 智能平台研究部、网络物理安全研究部、人工智能研究中心人工智能一代并将其作为公共文件公布。
产品或服务的质量是指产品或服务提供的功能是否符合业务运营商、开发人员或用户的预期。实现和维持这一点的系统方法和机制称为质量管理,要求经营者和开发商在保持一定质量水平的同时,不断满足客户和社会的需求。近年来,交互AI、文本生成AI等出现。大型语言模型 (LLM)生成 AI其性能正在迅速提高,并且其使用在公司和公众中正在扩大。然而,使用 LLM 生成的人工智能有可能通过提供不正确的信息或做出歧视性决策来伤害用户,因此需要适当的质量管理方法。
这一次,我们制定了一份指南,描述了生成式人工智能的质量管理概念,并将其作为公共文件发布。这些指南主要针对开发和运营生成式人工智能系统的公司,这些系统使用其他公司开发的法学硕士并作为在线服务或开源软件作为组件提供。它系统地展示了开发者和运营者应该做什么,才能为用户提供一定质量水平的系统。
本指南的详细信息将于 2025 年 5 月 27 日在日本人工智能学会 2025 年全国会议的辅导讲座上公布。
自2022年下半年以来,基于图像生成AI和大规模语言模型的聊天机器人已广泛提供给社会,其出人意料的高性能对社会造成了巨大影响。从那时起,这些生成式人工智能的性能持续快速提高,其使用在企业和普通消费者中不断扩大。生成式人工智能的开发方法与传统软件以及生成式人工智能出现之前主流的识别/预测式人工智能不同,其特性也有显着不同,因此传统的质量管理方法无法直接应用。如果在没有明确的质量管理方法的情况下尝试使用生成式人工智能,就会出现以下问题:1)无法达到足够的质量,对用户和附近的人造成损害;2)生成式人工智能系统的开发者/运营商与用户之间无法确定合理的质量合同条件;3)即使实现了高质量,也无法向用户和社会证明这一点。此外,由于生成式人工智能的高能力和快速发展,安全问题正在国际上蔓延,从2023年底到2024年,日本等国家将设立人工智能安全研究所等监管机构,并努力在国际协作体系下确保生成式人工智能的安全。安全是质量的主要要素之一,作为生成人工智能质量管理方法的一部分,越来越需要确保安全的方法。
作为 AI 运营商(包括使用 LLM 生成的 AI)的指南,总务省和经济产业省发布了《AI 运营商指南》,AI 安全研究所发布了《AI 安全评估观点指南》和《AI 安全红队技术指南》。不过,其中前两项重点关注的是生成型 AI 企业应从组织角度解决的问题最后一篇侧重于评估生成式人工智能抵御外部攻击的准备情况,两者都没有提出生成式人工智能开发和运营领域的完整质量管理方法。
AIST 此前发布了《机器学习质量管理指南》,系统总结了利用机器学习的 AI 系统的质量管理。2020 年 6 月 30 日 AIST 新闻稿)。本指南提出了识别和预测人工智能系统的质量管理方法,后续修订版直至第四版中提出的方法不能直接应用于生成人工智能。因此,自2023财年起,AIST一直在由来自企业和大学的专家组成的机器学习质量管理审查委员会中考虑生成式AI的质量管理。
这项研究和开发得到了国家研究开发机构新能源和产业技术开发组织 (NEDO) 的支持,该委托项目名为“与人一起进化的下一代人工智能技术开发项目/建立现实世界中可靠的人工智能评估和管理方法/研究和开发机器学习系统的质量评估指标和测量测试台(2020-2023 年)”。
[质量管理主题]
本次发布的生成式 AI 质量管理指南(以下简称“本文档”)主要针对基于 LLM 的 AI 系统,这些系统以 LLM 等通用基础模型为组件,为特定用途而设计和开发。图 1 显示了作为实现该系统的架构前提的信息流。

图1 基于LLM的AI系统中的信息流
*来自本书的图 5。
在这里,除了使用机器学习开发的 LLM 的质量之外,我们还将处理使用机器学习之前的方法开发的传统软件的质量,它们与 LLM 一起构成基于 LLM 的 AI 系统。此外,本书假设LLM是基于LLM的AI系统的开发人员从外部采购的可重用部分,并且他们不能直接参与其开发或质量实现。对于大多数拿起本书的读者来说,这种假设可能是正确的,因为开发当今最前沿的法学硕士需要大量的资源和资金投入,而世界上很少有组织能够做到这一点。因此,本书提出的方法主要针对传统软件的组件,通过使用传统软件的质量管理方法实现传统软件的质量特性,弥补了LLM质量的缺陷,实现了基于LLM的AI系统的质量。
[目标系统配置]
除了基本模型之外,本书的主要组成部分是提示及其周围环境,RAG相关组件,外部链接组件,输入过滤器,输出过滤器,和HMI 组件(图2)。

图 2 本书涵盖的组件
[本书中介绍的质量管理流程]
基于 LLM 的 AI 系统质量管理的基本流程如下。
1) 从基于法学硕士的人工智能系统的预期使用中得出质量要求。
2) 由此得出每个组件的质量要求。
3) 实施控制措施以满足每个组件的质量要求。
因此,本文档介绍了构成上述基于法学硕士的人工智能系统的每个组件通常所需的质量特征,并描述了实现这些特征的管理措施。
[本书中介绍的质量特征列表]
本书列出了基于法学硕士的人工智能系统应具备的质量特征。它基于国际标准ISO/IEC25000系列中定义的软件质量体系SQuaRE。但考虑到生成人工智能的技术特点和社会需求,我们更改了部分质量特征的名称,并添加了独特的质量子特征。图 3 显示了本书中涵盖的质量特性和质量子特性的列表。这些是从质量角度来看的目录,并不要求所有系统都满足所有这些要求。

图 3 本书涵盖的质量特性和质量子特性列表
图 3 中的“组件质量”是基于 LLM 的 AI 系统作为整体及其每个组件的质量。另一方面,“数据质量”是指基于LLM的人工智能系统以各种方式涉及的数据质量。主要是 RAG 中使用的输入提示和外部数据。
人工智能正在快速发展,基于法学硕士的人工智能系统已经出现,其复杂性超出了开头介绍的架构。未来,我们计划快速扩展和更新指南以涵盖这些内容。
新一代人工智能质量管理指南第一版
- 智能平台研究部技术报告 IPRI-TR-2025-01
- 网络物理安全研究部技术报告 CPSEC-TR-2025001
- 人工智能研究中心技术报告
网址:https://wwwdigiarcaistgojp/publication/aiqm/