首页 > 研究结果搜索 > 研究成果文章列表 > 2025 > 利用生成式人工智能降低风险并提高系统的可靠性

公告/发布日期：2025/05/26

米乐m6官方网站利用生成式人工智能降低风险并提高系统的可靠性

-新一代人工智能质量管理指南第一版发布-

积分

为生成的 AI 制定质量管理指南并作为公共文档发布
系统地介绍了使用大规模语言模型 (LLM) 作为组件来开发和运营生成式 AI 系统的公司需要采取哪些措施来实现质量
有助于确保使用 LLM 的生成式 AI 系统发挥作用并保持开发者和用户期望的高质量

概览图

基于大规模语言模型的生成式人工智能质量管理的目标和难点

摘要

米乐m6官方网站 (AIST) 智能平台研究部、网络物理安全研究部、人工智能研究中心人工智能一代并将其作为公共文件公布。

产品或服务的质量是指产品或服务提供的功能是否符合业务运营商、开发人员或用户的预期。实现和维持这一点的系统方法和机制称为质量管理，要求经营者和开发商在保持一定质量水平的同时，不断满足客户和社会的需求。近年来，交互AI、文本生成AI等出现。大型语言模型 (LLM)生成 AI其性能正在迅速提高，并且其使用在公司和公众中正在扩大。然而，使用 LLM 生成的人工智能有可能通过提供不正确的信息或做出歧视性决策来伤害用户，因此需要适当的质量管理方法。

这一次，我们制定了一份指南，描述了生成式人工智能的质量管理概念，并将其作为公共文件发布。这些指南主要针对开发和运营生成式人工智能系统的公司，这些系统使用其他公司开发的法学硕士并作为在线服务或开源软件作为组件提供。它系统地展示了开发者和运营者应该做什么，才能为用户提供一定质量水平的系统。

本指南的详细信息将于 2025 年 5 月 27 日在日本人工智能学会 2025 年全国会议的辅导讲座上公布。

发展的社会背景

自2022年下半年以来，基于图像生成AI和大规模语言模型的聊天机器人已广泛提供给社会，其出人意料的高性能对社会造成了巨大影响。从那时起，这些生成式人工智能的性能持续快速提高，其使用在企业和普通消费者中不断扩大。生成式人工智能的开发方法与传统软件以及生成式人工智能出现之前主流的识别/预测式人工智能不同，其特性也有显着不同，因此传统的质量管理方法无法直接应用。如果在没有明确的质量管理方法的情况下尝试使用生成式人工智能，就会出现以下问题：1）无法达到足够的质量，对用户和附近的人造成损害；2）生成式人工智能系统的开发者/运营商与用户之间无法确定合理的质量合同条件；3）即使实现了高质量，也无法向用户和社会证明这一点。此外，由于生成式人工智能的高能力和快速发展，安全问题正在国际上蔓延，从2023年底到2024年，日本等国家将设立人工智能安全研究所等监管机构，并努力在国际协作体系下确保生成式人工智能的安全。安全是质量的主要要素之一，作为生成人工智能质量管理方法的一部分，越来越需要确保安全的方法。

作为 AI 运营商（包括使用 LLM 生成的 AI）的指南，总务省和经济产业省发布了《AI 运营商指南》，AI 安全研究所发布了《AI 安全评估观点指南》和《AI 安全红队技术指南》。不过，其中前两项重点关注的是生成型 AI 企业应从组织角度解决的问题最后一篇侧重于评估生成式人工智能抵御外部攻击的准备情况，两者都没有提出生成式人工智能开发和运营领域的完整质量管理方法。

研究历史

AIST 此前发布了《机器学习质量管理指南》，系统总结了利用机器学习的 AI 系统的质量管理。2020 年 6 月 30 日 AIST 新闻稿）。本指南提出了识别和预测人工智能系统的质量管理方法，后续修订版直至第四版中提出的方法不能直接应用于生成人工智能。因此，自2023财年起，AIST一直在由来自企业和大学的专家组成的机器学习质量管理审查委员会中考虑生成式AI的质量管理。

这项研究和开发得到了国家研究开发机构新能源和产业技术开发组织 (NEDO) 的支持，该委托项目名为“与人一起进化的下一代人工智能技术开发项目/建立现实世界中可靠的人工智能评估和管理方法/研究和开发机器学习系统的质量评估指标和测量测试台（2020-2023 年）”。

研究内容

[质量管理主题]

本次发布的生成式 AI 质量管理指南（以下简称“本文档”）主要针对基于 LLM 的 AI 系统，这些系统以 LLM 等通用基础模型为组件，为特定用途而设计和开发。图 1 显示了作为实现该系统的架构前提的信息流。

图1 基于LLM的AI系统中的信息流
*来自本书的图 5。

在这里，除了使用机器学习开发的 LLM 的质量之外，我们还将处理使用机器学习之前的方法开发的传统软件的质量，它们与 LLM 一起构成基于 LLM 的 AI 系统。此外，本书假设LLM是基于LLM的AI系统的开发人员从外部采购的可重用部分，并且他们不能直接参与其开发或质量实现。对于大多数拿起本书的读者来说，这种假设可能是正确的，因为开发当今最前沿的法学硕士需要大量的资源和资金投入，而世界上很少有组织能够做到这一点。因此，本书提出的方法主要针对传统软件的组件，通过使用传统软件的质量管理方法实现传统软件的质量特性，弥补了LLM质量的缺陷，实现了基于LLM的AI系统的质量。

[目标系统配置]

除了基本模型之外，本书的主要组成部分是提示及其周围环境，RAG相关组件，外部链接组件，输入过滤器，输出过滤器，和 HMI 组件（图2）。

图 2 本书涵盖的组件

[本书中介绍的质量管理流程]

基于 LLM 的 AI 系统质量管理的基本流程如下。

1) 从基于法学硕士的人工智能系统的预期使用中得出质量要求。
2) 由此得出每个组件的质量要求。
3) 实施控制措施以满足每个组件的质量要求。

因此，本文档介绍了构成上述基于法学硕士的人工智能系统的每个组件通常所需的质量特征，并描述了实现这些特征的管理措施。

[本书中介绍的质量特征列表]

本书列出了基于法学硕士的人工智能系统应具备的质量特征。它基于国际标准ISO/IEC25000系列中定义的软件质量体系SQuaRE。但考虑到生成人工智能的技术特点和社会需求，我们更改了部分质量特征的名称，并添加了独特的质量子特征。图 3 显示了本书中涵盖的质量特性和质量子特性的列表。这些是从质量角度来看的目录，并不要求所有系统都满足所有这些要求。

图 3 本书涵盖的质量特性和质量子特性列表

图 3 中的“组件质量”是基于 LLM 的 AI 系统作为整体及其每个组件的质量。另一方面，“数据质量”是指基于LLM的人工智能系统以各种方式涉及的数据质量。主要是 RAG 中使用的输入提示和外部数据。

未来计划

人工智能正在快速发展，基于法学硕士的人工智能系统已经出现，其复杂性超出了开头介绍的架构。未来，我们计划快速扩展和更新指南以涵盖这些内容。

本次发文详情

新一代人工智能质量管理指南第一版

智能平台研究部技术报告 IPRI-TR-2025-01
网络物理安全研究部技术报告 CPSEC-TR-2025001
人工智能研究中心技术报告

网址：https://wwwdigiarcaistgojp/publication/aiqm/

术语表

人工智能一代: 以可以表达文本和图像等各种内容的格式生成和输出新数据的人工智能。在许多情况下，它们还接收文本或图像作为输入，并根据其中表达的内容进行处理。[返回来源]
大规模语言模型 (LLM): 就参数（模型内计算中使用的系数）数量而言规模较大（数十亿或更多）的模型，该模型使用机器学习技术来统计了解文本中的单词和短语可能如何按顺序出现，并使用以各种自然语言和编程语言编写的大量文本作为训练数据。根据学习结果，可以预测文本片段附近将出现哪些单词和短语（片段中缺失的部分、片段的延续等）。通过预测重复的连续性，可以将文本生成为一系列单词。[返回参考源]
提示: 使用大规模语言模型作为生成 AI 的输入给出的文本，通常用于指定您希望生成 AI 执行的处理。提示被用作指导生成人工智能的手段，因为当提示作为生成人工智能中大规模语言模型的输入，并通过预测将出现哪些单词作为延续来生成输出时，得到的输出文本通常代表根据提示表达的指令进行处理的结果。[返回来源]
RAG（检索增强生成）: 一种用于实现主要用于信息检索的生成式人工智能的方法，其中除了使用经过训练的大规模语言模型内部保存的知识之外，还使用从其他信息检索方法获得的搜索结果来生成输出。通常，大规模语言模型是使用特定时间点之前的公共信息进行训练的，因此以这种方式训练的大规模语言模型不了解该时间点之外的信息或任何未发布的信息。因此，在基于RAG的生成人工智能中，为了生成包含最新信息和高度机密信息的输出，将在给出搜索请求时执行的网络搜索结果或保存机密信息的组织内部数据库中的搜索结果输入到大规模语言模型中。[返回来源]
外部链接组件: 它是生成式人工智能的组成部分之一，允许生成式人工智能使用和操作系统生成式人工智能之外的系统。基于生成人工智能中使用的大规模语言模型的输出，它在互联网上搜索信息，使用互联网上的服务，从连接到网络的传感器获取值，并操作连接到网络的设备。从外部获得的值通常会作为输入反馈到大规模语言模型中。[返回来源]
HMI（人机界面）组件: 它是新一代人工智能的组成部分之一，调解用户与新一代人工智能之间的交互。其实现技术与人工智能时代之前的软件系统没有什么不同。[返回来源]

发布机器学习质量管理指南

联系我们

查询表

米乐m6官方网站 利用生成式人工智能降低风险并提高系统的可靠性

积分

摘要