当前位置: 首页 > 谷歌学院 > 谷歌网盟广告 > 谷歌投入多感官研究 尝试在VR中播放广告
谷歌投入多感官研究 尝试在VR中播放广告
文章来源:http://www.googlewz.cn/       发布时间:2017-07-05       点击数:

  尽管人工智能发展迅速,但它仍然有很多不足之处,比如很多AI解决方案无法处理多种类型的输入,很多人工智能都只专注一个方向,声音、视觉或者文字。考虑到目前技术原因,很少有人尝试将这三个方面结合起来构建一套完整的AI解决方案,然而现在谷歌和麻省理工学院合作的新项目迈开了新的脚步。下面上海Google代理商带大家详细了解一下这个项目。

  谷歌和麻省理工学院将共同研发一个多功能完整的AI解决方案并且能够同时处理声音、文本和图像。当这一研究项目有所突破时,人工智能就能拥有和人类相似的多重感官,该项目也十分具有野心。

  对于人类来说,我们很难在一定的时间内只使用某一种感官,而换个角度来说,这是目前的人工智能完全不具备的能力。对于机器来说能够实现某一种感官已经十分困难了,而人类却能很好的将听到的看到的内容匹配在一起。单从感官这方面来说,让人工智能具备人类的某些功能已经是不可能完成的任务了,更别说还要看机器的智能水平了。

  创建一个能够像人类一样学习和适应的算法并不容易,而谷歌和麻省理工学院发布的新的研究报告则为这一尝试指明了新的方向,人工智能也可能将拥有和人类一样的多重感官。论文详细地讲述了AI系统如何对听到和看到的内容进行调节,使其同步,这十分类似人脑的运作方式。

  论文的联合作者,麻省理工学院博士后 Yusuf Aytar 表示:“不管你是听见了了引擎声,还是看到了汽车,这都无所谓,因为你马上能识别出这是同一概念。这些信息已经在你的大脑中被统一起来。”

  研发人员并没有教算法学习新的东西,而是创造了一种方式让算法将不同感官连接统一起来。比如当一辆自动驾驶汽车听见救护车的声音时就能和救护车的样子联系起来,这样即使自动驾驶汽车没有看到救护车也能及时做出避让。

  麻省理工的研究人员向神经网络展示了带有音频的视频文件来训练AI系统。当神经网络接收到这些视频和音频后会开始尝试预测物体和声音之间的联系。在同一算法中输入带有文字说明的图片,让神经网络将图片中的物体和说明文字联系在一起。这样就帮助AI系统完成了对声音、视频、文字、图像之间的相互转换和识别。

  培训这个系统将需要大量的工作,尽管已经证明了几个测试已经相当成功。现在,算法只是提供“简单”的信息,但没有理由认为它不能处理更复杂的事情。使用这种开创性的技术将在未来几年为人类发展世界带来新的生命。

  尽管已经进行过的测试都非常成功,但训练这个系统还有很多额工作要做。目前,研究人员只为算法提供了相对简单的信息,以后的训练数据将会越来越复杂。为 AI 系统赋予多重感官,这种开创性的研究方向势必将在未来几年内为人工智能领域的研究带来新的突破。