公告/发布日期:2023/09/29

mile米乐集团 人工智能成功地再现了类似人类的能力,可以通过视觉回忆物体之间作用的力

-机器人使用廉价传感器实现仔细的物体操纵-

积分

  • 人工智能获得了仅从视觉信息中想象“可能会崩溃”和“可能会被压碎”之类的事物的能力
  • 人工智能根据类人推理来计划行动,以避免损坏物体
  • 预计适用于商店、工厂和配送仓库中的机器人工作以及使用摄像头进行事故预测等应用

概览图

从视觉信息中回忆物体之间作用力的人工智能技术及其在机器人工作中的应用


摘要

米乐m6官方网站(以下简称“AIST”)工业CPS研究中心自动化研究团队首席研究员Ryo Hanai、研究组组长Domae Yukiyasu、Ixchel Ramirez首席研究员、Takashi Makihara、研究助理、Kensuke Harada、人工智能研究中心Tetsuya Ogata(特别研究员)开发了一种AI技术,利用视觉信息来回忆作用力物体之间。

人类可以通过视觉感知来凭经验推断施加到物体上的大致力、物体的柔软度等来工作。例如,如果我发现某个东西看起来像是要散架或变软,我认为我必须小心处理它,以免打破或压碎它。这样,人类就可以根据经验,通过视觉引发不同的感觉,从而规划出多种行动。

在这项研究中,我们成功地利用人工智能重现了这种类似人类的能力,从视觉感知中唤起不同的感觉。物理模拟器我们通过构建虚拟体验数据来实现这一目标,该数据将上述物体之间施加的力可视化,并利用这种虚拟体验,人工智能可以学习视觉与其他感官(力)之间的关系。

在实验中,我们成功地使用单个摄像头实时可视化未知物体之间的近似力分布。我们还证实,理解力分布的机器人可以根据类似人类的推理采取行动,例如以尽量减少对周围物体的损害的方式举起指定的物体。未来,预计这项技术将在机器人小心操纵物体和自动驾驶事故预测等方面发挥作用。

这项研发成果将在 IEEE/RSJ 国际智能机器人与系统会议 (IROS) 2023 上展示,这是一场将于 2023 年 10 月 1 日至 5 日举行的机器人领域国际会议。


发展的社会背景

人类可以根据过去的各种经验回忆不同的视觉感觉,从而执行灵活多样的任务。小心处理柔软或易碎的物品,仅通过观察即可。然而,仅使用安装的视觉传感器很难在机器人中重现这种感觉。例如,机器人的运动动态的估计通常是在机器人与物体接触后使用力传感器或触觉传感器来制作。然而,使用这种判断方法,在来不及接触物体的情况下,例如物体倒塌时,很难执行灵巧的任务。另一方面,如果可以通过视觉轻松回忆起另一种感觉(跨模态),例如与运动动态相关的感觉,则可以通过廉价的传感器实现类人的行动计划,这有望为未来的机器人和自动驾驶系统做出贡献。

 

研究历史

AIST 一直在利用模拟进行机器人识别和运动生成技术的研究。在这项研究中,我们利用这些知识开发了一种人工智能技术,可以从图像中回忆物体之间的力的分布,并探索其应用于机器人的可能性。

这项研究和开发是由国家研究和开发机构日本科学技术振兴机构 (JST) 进行的。 Moonshot R&D项目:我们正在将其作为R&D项目“每个人一生拥有一个智能机器人(PM:Shigeki Kanno(早稻田大学)”)的研究主题之一,该项目得到了R&D计划的支持:“到2050年,人工智能和机器人的共同进化将实现自主学习和行动并与人类共存的机器人”(FY2020-2025)。

 

研究内容

10231_10731额外学习在机器学习研究中,这是零镜头过渡在虚拟世界中学习到的AI可以直接应用到现实世界中,无需任何额外的训练,表明学习效率高且易于应用。通过这种方式,我们实现了人工智能技术,可以从单个图像(来自单个相机)实时估计日常物体之间的力分布。

图1

图 1 使用所提出的方法从图像中回忆物体之间作用的近似力分布
(从绿色变为红色时施加的力越大)
所提出的方法包括(a)估计倾斜箱和篮子之间接触位置处的力(来自篮子侧面的接触力很小),
(b) 预测圆柱形罐和篮子底部之间的细线性区域中的接触,
(c) 还可以考虑堆叠物体之间(例如苹果和橙子之间)的接触点处的力。
所提出的方法允许对 (d)(e) 未知项目进行类似的召回
顶部:输入图像,底部:调用的 3D 力分布
*原始论文中的数字被引用或修改。

图2

图2 从视觉估计物体之间力分布的学习方法
*原始论文中的数字被引用或修改。

图 2 显示了使用所提出方法的学习方法的概述。在现实世界中,获得视觉信息的准确力分布是很困难的。在这里,我们使用物理模拟器根据物理计算来计算随机放置的日常物体的 3D 模型之间的“物体之间作用的力”。然而,物理模拟器上的物理计算并不能准确地再现现实世界的物理现象。因此,为了准确估计力的大小,需要付出巨大的努力来弥合模拟与现实之间的差距(在机器学习研究中称为领域差距)。因此,研究团队关注的是物体之间力的粗略分布,而不是物体上力的确切大小。在这种情况下,通过在时间上和空间上平滑通过物理模拟获得的信息,可以相对稳定地再现现象。因此,我们发现,无需让 AI 获得大量经验,就可以轻松填补领域空白。基于这个想法,通过在模拟器上生成虚拟体验数据,我们训练了一个深度学习模型,该模型输入视觉信息并输出物体之间的力分布,如图2所示。该模型为ResNet50配置的作为编码器,并将其与基于 ResNet 设计的解码器相结合。结果,如图1所示,将其应用于零镜头的真实相机成为可能。通常,通过模拟模拟现实来提高学习效率,但这一次,一个重要的技术成就是我们通过让学生获得在现实生活中难以获得的经验来补充现实世界的经验。

我们还将所提出的方法应用于机器人物体操纵的规划问题。如图 3(a) 和 (b) 所示,通过添加所提出的方法,我们能够规划出一种仔细的类似人类的方法,仅使用视觉信息来操纵对象。未来,预计这种方法将应用于灵巧操纵物体的机器人。

图3

图 3 机器人操纵在规划问题中的应用
(a) 当没有建议的方法时。当举起一个物体时,其上方的其他物体会掉落,从而造成损坏。
(b) 如果有建议的方法。操作非常仔细,对上述物体的损坏很小。
*这是对原始论文中的数字的引用或修改。

此外,AIST 的研究助理 Takashi Makihara 及其同事基于类似于力分布的概念来估计物体的柔软度 [1]。通过将手动提供的代表物体柔软度的地图附加到少量产品的 3D 模型并在模拟中生成大量数据,深度学习模型能够学习从视觉(来自距离图像传感器的深度图像)获得的物体形状和柔软度之间的关系(图 4)。当可以根据物体的形状估计物体的类型时,这使得预测场景中的柔和度分布成为可能。例如,如果您对某个塑料瓶的形状和柔软度进行训练,您可以估计形状略有不同的未知塑料瓶的柔软度。当这个AI应用到机器人上时,它就是抓取物体的最新方法Dex 网相比,作业成功率相同,被把持物的压坏被抑制了70%以上。另一方面,在无法仅根据形状来抓取某物的情况下,机器人能够利用其柔软性变形并推开周围的物体来抓取它,这种行为更像人类(图 5)。

图4

图4从视觉感知中回忆柔软
(左)在模拟器上构建由深度图像和对象柔软度分布组成的虚拟体验数据
(右)学习模型以根据深度图像预测柔和度(从黄色变为绿色再变为蓝色时更柔和)

图 5

图 5 通过推开周围柔软的物体来抓住物体

未来计划

这种通过视觉唤起其他感觉的技术可以使用廉价传感器实现类似于人类的灵巧行动计划。预计机器人将用于工厂和配送仓库中操纵物体,以及未来将在家庭中普及的智能机器人。此外,通过设计通过模拟创建和提供经验数据的方法,还可以在寻找自然环境中可能崩溃的地方方面找到应用。未来,我们的目标是将其应用到更广泛的领域,例如自动驾驶中的危险预测和卫星图像的灾害预测。

学术界信息

计划在 IROS2023(2023 年 10 月 1 日至 5 日举行)上公布
论文标题:“Forcemap:学习从视觉预测接触力分布”
作者:Ryo Hanai、Yukiyasu Domae、Ixchel G Ramirez-Alpizar、Bruno Leme 和 Tetsuya Ogata

参考文献

[1] Koshi Makihara、Yukiyasu Domae、Ixchel G Remirez-Alpizar、Toshio Ueshiba 和 Kensuke Harada,先进的机器人,2022 年,卷。 36、没有。 12、600–610。
https://doiorg/101080/0169186420222078669


术语表

物理模拟器
这是在计算机上模拟物体运动和碰撞等物理现象的软件。[返回来源]
动态
指作用在机器人或物体上的力与其产生的运动之间的关系。[返回来源]
额外学习
机器学习概念,指的是使先前训练的模型适应新任务和数据的过程。这是指使用来自真实环境的数据来重新训练使用模拟数据训练的模型。[返回参考源]
零镜头过渡
迁移学习是将在一个领域(模拟数据)学习的模型应用到另一个领域(真实环境数据)的过程。此时,不使用传输目标域的数据进行传输称为零样本传输。[返回来源]
ResNet50
ResNet是卷积神经网络的典型架构之一,通过堆叠相同结构的层,可以构建具有不同参数数量的网络。 ResNet50指的是50层配置。[返回来源]
Dex 网
这是一种根据视觉传感器获得的数据计算机器人适当抓取位置的方法。我们使用物品的 3D 形状和手模型生成的大量数据来执行深度学习。[返回来源]


联系我们

查询表