作为 NEDO“与人类共同进化的下一代人工智能技术开发项目”的一部分,AIST 最近开发了世界上第一个使用从数学公式自动生成的大规模图像数据集构建人工智能 (AI) 图像识别模型(训练模型)的方法。
该方法解决了商业用途的问题,例如人工智能使用大量真实图像进行学习、确保其隐私以及标记成本等问题,并实现了至少与当前使用真实图像和人工判断的教师标签的方法一样高的图像识别精度。未来有望应用于自动驾驶、医疗、物流等多种环境下的AI建设。
AIST 还计划在 IEEE/CVF 国际计算机视觉和模式识别会议 (CVPR) 2022 上展示该技术的详细信息,该会议将于 2022 年 6 月 19 日至 24 日在美国新奥尔良举行。
人工智能(AI)技术有望引入的领域是多种多样的,尤其是图像识别※1的技术正在引起人们的关注。然而,在制造和医疗环境中,有些情况下无法收集人工智能学习所需的大量数据,并且有些情况下数据昂贵,这为人工智能技术的引入造成了障碍。
克服这一障碍的一种方法是使用多种实际图像※2提前学习※3图像识别模型(经过训练的模型※4),但某些图像可能会侵犯隐私或被不当分配教师标签※5根据种族输出不公平的识别结果,这正在成为商业用途的一个问题。因此,开发训练有素的模型,使其识别精度达到或高于传统模型的水平,同时解决隐私侵犯和识别结果不公平等图像数据相关问题,已成为AI领域的紧迫问题。
因此,NEDO(新能源和产业技术综合开发机构)的``与人类一起进化的下一代人工智能相关的技术开发项目※6'',米乐m6官方网站(AIST)人工智能研究中心首席研究员 Hiroo Kataoka 等人。提前学习时没有使用任何真实图像,公式※7自动生成图像模式和教师标签来降低标签成本的方法,并构建AI图像识别模型(训练模型),而无需担心真实图像数据量、道德问题或权利。此外,这个经过训练的模型将用于基准图像识别性能ImageNet※8图像数据集,我们确认其准确性优于当前使用真实图像和人工判断的教师标签的方法,并且处于可用于实际目的的水平。
从今天开始,该数据集和经过训练的模型将在以下网站上向公众开放。
https://hirokatsukataoka16githubio/Replacing-Labeled-Real-Image-Datasets/
AIST 还将在 2022 年 6 月 19 日至 24 日在美国举行的活动中展示该技术的详细信息在 IEEE/CVF 计算机视觉和模式识别国际会议 (CVPR) 2022 上发表※9

图 1 图像理解 AI 的概念图,该图像理解 AI 使用数学公式生成的教师标签进行训练,无需真实图像或基于人类判断的教师标签
现在,我们利用由数学公式自动生成的大规模图像数据和自动分配的教师标签组成的数据集,开发了一种预训练模型,通过使用深度学习(人工智能方法的一种)学习物体形状的基本视觉特征,可以轻松构建识别图像的人工智能。
首先,它是通用公式之一分形几何※10自动生成图像数据集时用于训练图像识别人工智能,识别精度接近使用真实图像和人类给出的教师标签进行的传统训练。此外,当我们研究图像识别人工智能如何使用分形几何图像数据进行训练时,我们发现它主要通过关注轮廓分量来识别物体。
因此,我们还构建了一个图像数据集(基于轮廓形状的图像数据集),其中在数学公式中设置了径向生成轮廓的函数,使得图像的主要成分是轮廓。通过对这些图像数据集进行训练,我们能够获得用于识别对象的基本且良好的视觉特征。此外,通过这种方法,在根据数学公式生成图像时会自动生成教师标签,因此不需要人类为真实图像添加教师标签,而这正是过去的情况。
ImageNet 被认为是图像识别的基准,用于身份验证。 ImageNet 是一个一般物体图像的数据集,分为 1000 个类别。由于它包含了在互联网上经常作为图像数据出现的各种图像类型,因此您可以通过将 ImageNet 图像作为识别问题(任务)并检查识别精度来衡量实际使用的水平。
首先,如图 2 所示,我们通过使用人类分配了教师标签的标准真实图像数据集、基于分形几何的图像数据集以及本次开发的基于轮廓形状的图像数据集生成经过训练的模型,构建了图像识别 AI。当该图像识别人工智能以来自 ImageNet 的常见物体图像作为任务时,使用基于分形几何和轮廓形状的图像数据集构建的图像识别人工智能的准确性高于使用真实图像的准确性(分形几何:827%,轮廓形状:824%,真实图像818%)。

图 2 用于生成经过训练的模型的示例图像。
图的上部是过去一直使用的标准真实图像,图的中心和下部是根据新提出的数学公式(分形几何/轮廓形状)生成的图像。
此外,可以扩展基于分形几何的公式。例如,图 3 的左侧是根据旨在 3D 空间中的对象检测的数学公式生成的 3D 分形数据。该扩展数据集还可以使用真实空间中的 3D 数据在经过训练的模型上进行额外训练。图 3 右侧是根据房间内 3D 扫描数据进行家具检测的示例,当机器人在房间内移动时可以使用该示例。

图 3 用于 3D 空间中对象检测的扩展数据集
综上所述,使用分形几何和轮廓形状的图像数据集从数学公式构建训练模型的方法有望应用于自动驾驶和机器人的视觉能力,这些需要在存在各种物体的现实空间中得到实际应用。
此外,通过发布本研究成果的训练模型,用户可以开始开发具有一定准确度的图像理解 AI。
经过训练的模型是使用 AI 桥接云基础设施 (ABCI) 进行训练的,ABCI 是 AIST 拥有的全球最大的人工智能处理计算基础设施。
在这个项目中,通过发布经过训练的模型并听取各个工业领域的需求,我们将扩展具有距离信息的视频和图像等输入数据,并处理更多任务,例如运动识别和图像区域估计。
此外,从数学公式生成数据和教师标签的概念有可能广泛应用于图像识别人工智能的开发。利用这一点,我们计划开发一个“通用训练模型”,可以用作任何任务的基础,而无需使用真实数据或人工判断的教师标签。该模型预计可用于在医疗领域、物流站点和交通场景分析等各种环境中构建人工智能。

图4未来发展图