带来变革的想法必定处于研究的前沿。日本最大的公共研究机构之一 AIST 的官方网络杂志。

来自日本,任何人都可以实现最高精度的图像识别人工智能!

来自日本,任何人都可以实现最高精度的图像识别人工智能!

2022/11/30

来自日本,最高精度的图像识别人工智能任何人都可以实现! 使用公式生成预学习数据

首席研究员中岛照片
    关键点为了提高人工智能 (AI) 的性能,需要大量数据供 AI 学习。但你实际上需要人工智能公司、工厂、医院、配送基地等场所可采集的数据量有限,无法全面提升AI能力这给AI领域的发展造成了困难。
    AIST 正在开发识别图像的 AI使用真实物体的图像和数学公式生成的图像而不是真实图像对 AI 进行预训练现场领取开发出的技术使人工智能即使在数据很少的情况下也能达到最高的准确性我做到了。通过免费提供使用该技术获取的大量图像数据和预先训练的人工智能,我们鼓励公司、大学和研究机构为日本工业中人工智能的使用做出贡献。
    目录

    为图像识别 AI 预学习带来创新

     一项技术的开发有望让未来即使是小工厂也能开发出世界上最高性能的人工智能。这是AIST人工智能研究中心的Hiroo Kataoka开发的使用数学公式的图像生成技术。

     该技术的目标是图像识别人工智能,可以确定捕获的图像中的内容。 AI的预训练需要大量的图像数据,但该技术最显着的特点是,虽然它使用的是数学公式生成的图像而不是依赖真实图像本身,但在一定条件下却实现了超过真实图像的图像识别精度。如果能够利用生成的数据,即使是管理资源有限的小公司也有潜力能够自行开发出最高水平的图像识别人工智能,可以与世界顶级公司竞争,而无需收集大量真实图像。 (2022/6/13 新闻稿文章

     在解释该技术的细节之前,我们首先看一下结果概述。

     ImageNet-21K 是收集大量可用于 AI 学习的图像的数据集的代表性示例。它收集了大约 21,000 种物体的超过 1,400 万张图像,包括人、动物、汽车和建筑物,并在互联网上发布并广泛用于学术目的。 Kataoka 的研究小组比较并检查了三种经过训练的模型的图像识别准确率:一种是在“真实图像数据集”上进行训练,另一种是在使用“分形几何”和“轮廓形状”两种数学公式生成的图像上进行训练。结果对于真实图像为 818%,对于分形几何为 827%,对于轮廓形状为 824%,表明使用该公式生成的数据优于真实图像。

     差异不到1%,但对于研究AI的工程师和专家来说,这是一个令人惊讶的数字。 “识别准确度取决于世界各地的研究人员的努力,每年将识别准确度提高 1%,”Kataoka 说。

    真实图像、基于分形几何的图像和基于轮廓形状的图像的对照表
    使用该技术开发的“基于分形几何的图像”和“基于轮廓形状的图像”时,图像识别 AI 的准确性比使用“真实图像”(ImageNet-21K) 进行学习时更高

     虽然这个图像识别率可以说是非常高的水平,但还没有达到号称AI研发领跑者谷歌通过海量图像训练达到的全球最高准确率。谷歌已经使用自己的私有数据集实现了 8415% 的更高识别准确率。然而,该模型用于学习的图像数量据称为 3 亿张,比 Kataoka 等人的数据集多了一个数量级。用于预训练,范围从 2100 万(基于轮廓形状的图像)到 5000 万(基于分形几何的图像)。顺便说一句,谷歌目前正在使用 30 亿张图像进行研究,这个数量级要高出一个数量级。

     Kataoka 和他的同事们并没有像这些大型 IT 公司那样使用蛮力收集图像数据集,而是致力于通过使用数学公式生成图像(而不是依赖大量真实图像)来增加 AI 可以学习的图像数量,从而实现与他们相当的识别精度。这项研究是国家研究开发机构新能源产业技术综合开发机构(NEDO)开发项目的一部分,目前已取得显着进展。

     Kataoka 表示:“到 2025 年 3 月项目结束时,我认为我们将能够达到与在大约 3 亿张真实图像数据上预训练的模型相似的图像识别精度。”他对实现自开始以来多次提出的崇高目标充满信心。

    受到动物视觉系统的启发

     这项技术值得注意的是,用于学习的图像数据由“抽象单色形状”组成。从上图中可以看出,它与真实事物的照片(实际图像)没有任何相似之处。这是因为该技术根据数学公式表达的规则机械地生成图像。此外,该技术还可以通过修改数学公式的形式和系数来增加形状的多样性,使得轻松生成数千万张图像成为可能。

    然而,为什么抽象形状可以用来提高人工智能识别自然物体的性能呢?秘密在于人工智能的学习方法。最近使用深度学习技术的人工智能通常使用称为迁移学习的方法分两个阶段进行训练。

     通过两个过程来提高性能:首先,使用大量通用数据学习开发基本识别能力(预学习),然后使用缩小到特定应用范围的少量数据再次学习(附加学习)。

    高度准确的图像识别人工智能可以通过额外训练人工智能(模型)来实现,该人工智能(模型)已经使用医疗领域等个别应用的数据通过通用数据进行了预训练
    通过使用医疗领域等单独应用的数据额外训练预训练的 AI(模型),可以实现高精度的图像识别 AI

     该技术用于这两个阶段学习的“预学习”。那么为什么即使用抽象的图形作为“预学习”的数据来培养基本的认知能力,仍然会产生正确的结果呢?

     原因就在于包括人类在内的动物的大脑结构和学习方法。动物大脑中负责视觉的部分(初级视觉皮层)首先从通过眼睛传入的图像信息中检测到各个方向的“线条”。换句话说,无论动物看到什么场景,它最初都会将其分解成无数的线条组合并识别出来。

     众所周知,这些动物的认知能力不是由基因决定的,而是通过出生后的学习获得的。事实上,研究表明,如果新生猫在只有垂直线的环境中长大,它们将不再能够识别水平线。*1

     这意味着,如果动物不首先学习物体形状中的“线条的各种组合”,它们就会出现视觉异常。相反,如果存在一个完全代表自然环境中发现的线条组合的几何图形,它可以代替真实图像用于视觉能力的预学习。这也适用于图像识别人工智能。

    将自然界中发现的几何属性融入机器学习

    那么,我们可以使用什么样的形状来正确训练人工智能呢?

     在与当时的老板佐藤丰交谈时,片冈意识到“分形图像可能很有前途。”分形是日语术语,意为“自相似性”,是自然景观和生物中常见的一种几何属性。例如,它是指即使尺寸放大,相同的形状也会反复出现的现象,例如海岸线的形状或树叶的纹理。分形形状可以使用数学公式轻松生成。

    自然界中具有自相似性(分形)的植物和风景图像
    自然界中具有自相似性(分形)的植物和风景

     如果动物视觉已经进化到能够准确识别也具有分形特征的自然环境,那么使用清晰捕捉自然特征的分形图像进行学习难道不是一个好主意吗?考虑到这一点,两人开始尝试使用真实图像实现接近人工智能的性能的想法。结果如上所述。图像识别率甚至超出了参与者的预期。

    分形图像示例
    分形图像示例

     片冈等人。还在尝试使用轮廓形状的图像来创建更好地反映自然环境特征的形状。本实验是基于图像识别AI中正在成为主流的最新算法(视觉变换器)以轮廓信息为主要线索的认识而进行的。如上所述,该结果也是与分形相当的高值。

    轮廓图像示例
    轮廓图像示例

     用于学习的图像数据是“单色抽象形状”,分形几何和轮廓形状数据集都不使用颜色信息。我们也尝试过使用不同颜色的图像数据,但对提高准确率效果甚微。因此,我们决定最好在初步训练中使用单色图像,并在额外学习中提供颜色信息。

    收集图像数据时防止人为错误和侵权

     由数学公式生成的形状图像的好处超出了任何人都可以准备大量学习数据的事实。

     对于用于AI学习的图像数据,需要预先手动为每张图像添加“标签(表示形状类型的数字)”,描述诸如所显示的“正确答案”。由于涉及人的判断,如果数据量较大,可能会引入错误。事实上,过去曾有图像识别AI做出种族歧视决定的案例,但据说这是因为用于学习的图像偏向特定种族。根据用于学习的数据及其标记,人工智能有可能导致意外故障。

    另外,学习之后,AI的内部运行原理就变成了一个不清楚的“黑匣子”状态。因此,当人工智能出现异常行为时,就很难发现导致问题的数据。此外,在收集大量数据时,存在侵犯他人隐私或权利的数据可能在不知不觉中被包含在内的风险。*2

     然而,随着基于数学公式创建的图形数据,这些担忧都被消除了。由于它是一个人造人物,因此不存在人为偏见或错误。以前必须手动添加的标签现在可以自动添加到每条数据中。

     AIST 将把这次创建的数据集和经过训练的 AI 在线发布给任何人使用(项目网站)。实验中用于比较的真实图像数据集(ImageNet-21K)也已公开并为研究人员所熟悉,但其缺点是其用途仅限于教育和研究,无法商业化使用。不过,AIST发布的信息也可以应用于企业的产品开发和付费服务。

     该数据集的发布将为任何公司提供创造最高水平的图像识别AI的机会,而在这个竞争激烈的领域,可以说是全球范围内罕见的创举。人们已经开始采取行动来提高实际产品的性能,例如风险投资公司 AI Medical Service 使用该数据集开发了医学图像识别系统。

     “日本拥有包括制造业在内的世界首屈一指的技术能力,并且拥有在该领域具有竞争力的宝贵的人工智能学习数据。另一方面,在数据量方面,也存在由于各种限制而无法准备足够的情况。”通过将这些少量的竞争性学习数据与我们的数据集相结合,我们希望创建一个可以与世界顶级公司竞争的人工智能。”(佐藤)

    研究员照片

    创建一个可应用于所有 AI 的基本模型

     Kataoka 等人开发的技术实力。不限于解决传统问题。我们来看看它的发展潜力。

     该技术的另一个主要优点是它可以应用的数据不限于二维静止图像。例如,它可以应用于最新智能手机中内置的传感器生成的图像数据,这些传感器可以测量三维物体的形状。事实上,我们已经确认它可以用来创建一个人工智能,使用数学公式创建 3D 分形形状,并使用它们进行预学习,以从真实房间的 3D 数据中检测物体的位置。

    左侧是用于 AI 预训练的 3D 分形数据。右边是室内3D数据检测物体的结果
    左侧是用于 AI 预训练的 3D 分形数据。右边是室内3D数据检测物体的结果

     此外,不仅可以利用静止图像,还可以利用视频和音频等时刻变化的数据。我们正在开发一种方法,使用数学公式生成人们认为是随机模式的数据,并将其用于初步学习,并且我们已经通过初步实验证明了视频的高效性。

     片冈和他的同事的最终目标是创建一个可用于各种应用的人工智能模板,尽管它是单一形式的人工智能。目标是创建一种称为“通用训练模型”的人工智能,该模型针对不同类型的数据(例如静态图像、视频和 3D 数据)进行训练,并且可以根据通过额外学习提供的数据用于各种目的。

     国外以人工智能研究闻名的先进公司,如谷歌、Open AI、Meta等,都在竞相开发此类基础人工智能模型。 “图像生成人工智能”在 2022 年夏天突然受到关注,可以立即创建用文字表达的内容的插图,是基础模型研究的一个分支。

    AIST 的目标是提高日本工业的竞争力。包括片冈在内的许多研究人员一直致力于构建源自日本的通用训练模型,并与大学和公司合作开发可用作零件的基础技术。

     我们希望通过创建一个易于构建和引入、可重复用于各种应用的人工智能基础来支持日本工业,并且我们愿意作为国家研究机构做出贡献。片冈和他的同事的研究不断扩大。


    *1:C Blakemore 和 G F Cooper,“大脑的发育取决于视觉环境”,《自然》,卷。 228,1970 年 10 月 31 日。[返回来源]
    *2:根据日本版权法第 30-4 条,未经版权所有者许可,可以将受版权保护的作品用于人工智能学习,但会不当损害版权所有者利益的情况除外。[返回来源]

    信息/人体工程学领域
    人工智能研究中心
    计算机视觉研究团队
    首席研究员

    片冈宏夫

    片冈弘胜

    研究员 Hitoshi Kataoka 的照片

    信息/人体工程学领域
    研究规划办公室
    研究计划办公室主任

    佐藤丰

    佐藤丰

    研究计划室佐藤主任照片
    日本科学技术协会
    信息/人体工程学领域
    人工智能研究中心
    • 东京都江东区青海 2-3-26 135-0064
    • airc-info-ml*aistgojp
      (发送前请将*更改为@)
    • https://wwwaircaistgojp/

    对本文的反应

    •  

    •  

    •  

    分享这篇文章

    • 与 X 分享
    • 在 Facebook 上分享
    • 在 LINE 上分享

    对于那些对发表的文章、与 AIST 的合作、介绍的技术、研究成果等感兴趣的人

    AIST 杂志中介绍的案例、结果和主题是 AIST 进行的研究和合作成果的一部分。
    如果您对已发表的文章有任何疑问或对 AIST 的研究内容、技术支持、合作等感兴趣,请联系我们
    请随时使用查询表与我们联系。

    国立产业技术综合研究所

    版权所有 © 米乐m6官方网站 (AIST)
    (日本公司编号 7010005005425)。保留所有权利。