带来变革的想法必定处于研究的前沿。日本最大的公共研究机构之一 AIST 的官方网络杂志。

什么是多模式人工智能?

什么是多模式人工智能?

2023/11/29

#热门〇〇解说

多模式人工智能

用科学的眼光来看,
社会关注的真正原因

    30 秒内解释

    什么是多模式人工智能?

    多模式人工智能是一起处理不同类型信息的人工智能。例如,通过让单个人工智能学习不同类型的信息,例如摄像机捕捉的视频和麦克风录制的声音,它可以更准确地估计视频中的人在说什么。随着多模式人工智能研究的发展,人工智能将变得更加先进和熟悉,例如创建需要根据复杂信息做出决策的辅助机器人,以及能够以更低的成本创建人工智能。

    人工智能的发展令人瞩目,不仅可以分析信息,还可以生成文本和图像的人工智能已经出现并被应用于各种情况。尤其是最近备受关注的“多模态人工智能”,它不是从图像、声音或文本等单一类型的信息中学习,而是从多种类型的信息中一起学习,以进行更高级的信息处理。多模态人工智能利用其以复杂方式处理信息的能力,可应用于安全摄像头、自动驾驶汽车等需要对复杂信息进行判断的广泛应用。我们向人工智能研究中心智能媒体处理研究组的绪方淳和社会智能研究组的坂东义明询问了多模态人工智能的特点、产研院多模态人工智能研究的现状和未来前景。

    目录

    什么是多模式人工智能

    一个人工智能可以学习不同类型的信息

     多模态人工智能是一种集中处理不同类型信息的人工智能。例如,它通过组合图像、音频和文本等不同信息并将它们相互关联来处理它们。

    图
    单模态人工智能和多模态人工智能之间的区别

     多模态人工智能的一个易于理解的应用示例是安全摄像头。普通的监控摄像头只记录图像,没有声音,因此除非能看到他们面部表情的细节,否则你无法判断面对面的两个人是在愉快地聊天还是在争吵。通过添加与声音相关的信息,可以根据说话的内容和语气更准确地确定情况是否更危险。

    多模态人工智能也可以应用于自动驾驶。自动驾驶过程中,需要在行驶过程中检测障碍物。相机在识别物体方面表现出色,但在暗处和逆光下的表现较弱,并且受周围环境的影响较大。另一方面,雷达识别物体的准确度较差,但其优点是在确定物体是否存在时受周围环境的影响较小。通过结合从摄像头和雷达获得的信息,可以提高自动驾驶中物体判断的准确性。

    在不同类型的数据之间创建关系

     在多模式人工智能中,最近引起关注的一种是允许人工智能通过关注“不同类型信息之间的共同关系”来学习的人工智能。例如,如果你用摄像头同时录制有人演奏乐器和有人不演奏乐器的视频,然后结合麦克风录制的信号来训练系统,你就能自动掌握“声音是从拿着乐器的人那里听到的”的关系。这种不同类型信息之间同时出现的特征被称为“共现关系”。与“监督学习”(即手动教导机器人看到什么物体、听到什么声音)不同,可以通过让人工智能从两者之间的共现关系中自行学习来提高人工智能的性能。

    根据视频和声音估计对话方向

     让我们以机器人环境识别而开发的“估计声音方向的人工智能”为例,进一步了解利用图像和声音之间的共现关系的多模态人工智能的机制。

     AIST 开发了一种人工智能,可以通过为机器人配备在展品之间移动的摄像头和麦克风来识别声音的来源。通过将从视频获得的声音事件位置预测结果与从麦克风获取的声音数据相结合,可以估计声音实际发生的地点和时间。通过使用摄像机捕捉到的人物和展品、用麦克风记录的对话和展品音效这两种不同类型的数据,可以显示展品声音的方向以及来自展品发出各种声音(例如机器操作声音和大厅内的广播)的展品设施中的声音的方向,而无需使用手动引导。这项技术将促进自行式机器人的发展,这种机器人可以理解周围环境,独立思考和行动,并可以通过自学的方式从学习数据中获取概念,而无需手动教授每个发出声音的物体。

    图
    一个机器人在国家新兴科学与创新博物馆(东京)内移动。该机器人通过安装在顶部的 360 度摄像头捕获图像和 16 个麦克风发出的声音来识别周围的环境。 (引自 Yoshiki Masuyama 等人,2020)*1

    多模式人工智能的挑战和未来发展

    标签成本降低,但高效处理大量数据是一个挑战

     一般的AI模型训练中,需要给所有数据贴上标签(教师信息)来表明它是什么。这种类型的标记工作称为注释,需要大量的成本和精力。另一方面,在处理异构或复杂数据的学习中,例如在多模态人工智能中,人们认为,即使没有教师信息,也可以通过学习不同数据的互补特征来降低标记成本。

     与仅处理一种类型数据的单模态 AI 相比,多模态 AI 的困难在于,由于处理不同类型的数据,数据量只会增加。随着数据量的增加,计算时间也随之增加,因此我们需要更高效地处理数据的技术和能够处理大规模数据的计算平台。此外,尚未建立以互补方式处理不同类型数据的方法,需要进一步研究和开发。

    此外,由于多模态人工智能从各种不同类型的数据中识别和解释情况,因此用户有时很难理解其决策的基础。因此,通过可视化并向用户呈现人工智能如何做出决策的基础,与“可以解释的人工智能”相关的技术和功能被认为比一般的单模态人工智能更重要。

    与自然语言处理技术相结合,人工智能变得更加自然和熟悉

     如果多模态人工智能研究和技术得到发展,人工智能将可能能够像人类五种感官一样解释信息,成为人类更加熟悉和自然的存在。

     我们特别关注使用 ChatGPT 等自然语言处理技术的大规模语言模型。当今的大规模交互式语言模型,特别是那些学习和输出文本和图像的语言模型,可供任何人使用。如果我们能够使用多模态人工智能技术在单个神经网络中学习各种类型的数据,例如音频和视频以及机器人的行动计划,我们相信我们将能够实现能够从多个角度看待事物并提供更加多样化的输出的人工智能。 (AIST 杂志“什么是自然语言处理?」)

     多模态人工智能技术将推动人工智能的发展,可以提出更先进的建议,而不仅仅是安全摄像头和自动驾驶。 AIST的目标是首先开发多模态人工智能,从声音和图像数据中识别环境声音,并以低成本实现这一目标。混合各种模式的基础人工智能研究正在世界各地积极进展。我们希望积累有关如何以易于使用的格式提供多模式人工智能学习模型的知识,并将其与未来的各种合作联系起来。


    *1:增山义树、坂东义明、矢田部航平、佐佐木洋子、大西正树和及川泰弘。 2020。通过概率空间建模进行自监督神经视听声源定位。 2020 年 IEEE/RSJ 智能机器人与系统国际会议 (IROS)。 IEEE 出版社,4848–4854。https://doiorg/101109/IROS4574320209340938 [返回来源]

    对本文的反应

    •  

    •  

    •  

    分享这篇文章

    • 与 X 分享
    • 在 Facebook 上分享
    • 在 LINE 上分享

    对于那些对发表的文章、与 AIST 的合作、介绍的技术、研究成果等感兴趣的人

    AIST 杂志中介绍的案例、结果和主题是 AIST 进行的研究和合作成果的一部分。
    如果您对已发表的文章有任何疑问或对 AIST 的研究内容、技术支持、合作等感兴趣,请联系我们
    请随时使用查询表与我们联系。

    国立产业技术综合研究所

    版权所有 © 米乐m6官方网站 (AIST)
    (日本公司编号 7010005005425)。保留所有权利。