米乐m6官方网站 (AIST) 正在致力于开发能够自动从数学模型中学习的图像识别 AI,作为 NEDO 委托项目“与人类共同进化的下一代人工智能技术开发项目”(以下简称“本项目”)的一部分。最近,除了识别图像中的物体的图像识别之外,我们还成功训练了执行图像区域分割的人工智能,它可以掌握图像中的详细内容,例如物体范围信息。我们现在已经实现了具有基本的视觉相关能力的人工智能,包括图像区域分割。
本次实现的图像区域分割是自动驾驶、机器人视觉信息等工业应用所需的核心技术。传统上,为了训练图像分割人工智能,需要收集大量真实图像并让人为图像中的每个像素分配教师标签等巨大的人力成本,以及收集的真实图像引起的侵权和伦理问题,但这一结果解决了这些问题。此外,由于用于学习的源图像基于数学模型,因此可以为工业应用灵活定制。
AIST 将在 2023 年 10 月 2 日至 6 日在法国巴黎举行的 ICCV 国际会议上详细介绍该技术。

图1 使用数学模型自动生成的数据集构建图像识别AI
当前,人工智能的行业应用在全球范围内蓬勃发展。特别是在社会中实现图像识别AI时,例如自动驾驶时的场景识别或机器人抓取物体时,不仅可以识别图像中的物体,还可以掌握图像的详细内容,包括物体的位置信息。图像区域划分※1作为核心技术备受关注。
另一方面,图像区域分割是由人类在大量真实图像上手动完成的教师标签※2,构建图像数据集,AI学习获得视觉能力,但据说人类标记每张图像需要数十分钟。此外,根据工业现场的不同,收集必要的图像可能会很困难,从而导致巨大的人力成本。因此,需要一种能够以尽可能少的图像应用于工业现场的技术。此外,目前在研究场所使用的图像识别人工智能很难用于商业目的,因为人们担心所学习的图像数据集的实际图像可能会侵犯隐私或引发道德问题,例如包含攻击性标签。
为了解决这些问题,NEDO(新能源产业技术综合开发机构)这个项目※3,国立产业技术综合研究所(AIST)数学模型※4生成图像和教师标签,AI自动获取基本的视觉特征训练有素的模型※5通过训练有素的模型,我们的目标是提高后续工业应用所需的个体学习的准确性,使人工智能开发比以往任何时候都更容易。

图2 图像识别AI预学习和自适应学习
(1)图像识别AI模型构建
在这个项目中,成功自动生成教师标签,该标签为使用数学模型生成的训练图像识别图像※6我是。这次,现在可以同时学习图像区域分割的任务,该任务可以生成每个像素的位置信息,作为更专门针对工业应用的任务。这使我们能够减少巨大的人力成本,并在不使用真实图像数据的情况下构建用于图像分割的预训练模型。
通过实现图像区域分割技术,可以根据工业应用中的任务灵活更改图像和教师标签。此外,由于图像和教师标签都可以通过数学模型生成,并且可以构建图像数据集,因此可以轻松构建人工智能,而无需担心隐私保护等伦理问题。
(2)与传统技术的比较
图 3 是根据新实现的数学模型生成的图像分割数据集的示例(图 3,第一行)以及人工智能从真实图像和人类分配的教师标签中学习的传统标准图像分割的公共数据集(图 3,第二行“城市景观”,第三行“COCO-Stuff”)。通过这种方式,您可以看到可以为每种类型的对象生成带有颜色编码区域的训练数据,类似于传统数据集。

图3 图像识别AI学习到的区域分割图像和教师标签示例
在教师标签图像(当前图像的右侧)中,不同的颜色表示不同的含义。例如,道路图像中的路面和汽车。
(3) 灵活适应工业应用中的各种任务
我们实现的图像区域分割数据集可以灵活地改变底层数学模型,因此可以使用参数来改变训练数据的外观,例如形状、纹理和颜色,以匹配适用工业现场所需的数据性质。通过改变图像分割数据集的组成,预学习数据集的属性会发生变化,其擅长的图像分割类型也会有所不同。通过根据各种图像分割数据集的任务提前自定义参数,您可以进行预训练,这很可能会提高性能。
图4显示了基于新实现的数学模型的图像分割数据集的组成部分的变化,显示了(a)放置在一幅图像上的多边形数量,(b)掩模类型,(c)颜色信息,(d)遮挡(重叠程度),(e)线数(每个多边形的线数),以及(f)多边形类型。可以根据工业应用中的各种任务自定义这些参数。

图 4 数据集组件
AIST 将于 2023 年 10 月 2 日至 6 日在法国巴黎举行的活动中详细介绍该技术在 ICCV 国际会议上发表※7未来,我们将把这个结果应用到图像区域分割中,这需要人类进行大量的训练标记。
此外,如该结果所示,监督标记涉及复杂且耗时的区域分割(例如位置信息),是整个 AI 领域发展的瓶颈。使用数学模型生成用于学习的真实数据和教师标签时,核心技术是设置能够承受所有工业应用的模态(图像、视频、3D等数据类型)和任务(对象检测、区域分割、超分辨率等)。未来,我们计划开发一个支持这些的“通用训练模型”人工智能。