近期谷歌的研发人员完成了一篇新的论文:《基于几何感知表征的抓取交互学习》,该篇论文主要提出了一种几何感知编码器—解码器网络,利用几何感知表征来学习实现抓取交互。下面上海谷歌推广小编就带大家了解谷歌的这一新研究成果。
上海Google代理认为其一为论文摘要
学习与环境中的物体进行交互是一个涉及感知、运动规划和控制的根本性的AI问题。不过因为存在高维状态空间,很难创建大规模数据集和很难关注到物体外观的多类变化信息,对这类交互表征的学习有很大的挑战性。
谷歌对物体3D集合结构是抓取交互的研究核心进行了论证,并且提出了一种称为几何感知学习智能体(geometry-aware learning agent)的新概念。这篇论文核心思想就是通过3D几何学预测来约束和规范交互学习。
发表的论文中主要将几何感知智能体的学习过程分为两个步骤。首先智能体通过3D形态生成模型,从2D感知输入中学习构建当前场景的几何感知表征。然后再通过内置的几何感知表征来学习预测抓取结果。这种几何感知表征方法利用一种新颖的无学习(learning-free)深度投影层,在几何学与交互的关联研究中起到了关键作用。
论文的贡献主要呈现在以下三个方面,一是利用虚拟现实演示构建了一个能够交互标注,有丰富感知的抓取数据集;二是谷歌通过论文证明了学习几何感知表征能比基准模型得到一个鲁棒性更好的抓取结果预测效果;三是具体展示了学习几何感知表征在抓取规划上的优势。
上海谷歌代理认为其二为实现方法
论文中谷歌提出了一种两个阶段的学习框架,分别执行3D形态预测和利用几何感知表征进行抓取结果预测,如上图即为这种学习框架的示意图。在给定的场景进行2D感知输入,都能够生成相应的3D物体形状,比如物体的体积表征,这也是论文中提出的提出的关于几何感知智能体中的一个重要特征。
谷歌这篇论文的构想中,主要将几何感知表征可理解为一种在世界坐标系下以相机目标为中心的场景的占用网格表征方法,和其对相机视角和距离具有不变性。
上海谷歌代理认为其三为模型结构
论文中构建的几何感知编码器—解码器网络主要包含这样两个部分,3D形态生成网络(生成功能)和抓取结果预测网络(预测功能)。形态生成网络中含有一个2D卷积形态编码器和一个3D反卷积形态解码器,接上一个全局投影层;而结果预测网络含有一个2D卷积状态编码器和一个带有额外局部形态投影层的全连接结果预测器。