近日有消息称谷歌创建了新的算法,该算法主要用于接收多种模式的输入以及多种方式的输出。今天上海谷歌推广小编就利用本文和大家分享谷歌的这一算法。
目前大多数的机器学习都只集中在一个领域。机器翻译只能为一种语言建立相应的匹配模式,比如中英文的翻译;图像识别算法也只能执行任务,比如描述图片的类别,识别图片中的人、物体等。相比之下,人类大脑在工作执行任务时则表现更好,能够将知识在不同的领域中进行融合。人类大脑甚至还能通过倾听其他领域,将学习到的东西进行转换。
谷歌建立的模型MultiModel能够同时执行多个领域的8个任务,其中包括了语音识别、图像分类、添加字幕、句法分析、英德互译或英法互译等。这种神经网络包含了编码器、解码器和“输入输出混合器”,能够将先前的输入和输出传达给解码器。如上图,MultiModel中每个小色块代表一种模式,比如声音、文本、图像等,神经网络可以用这些输入和输出方式学习每项任务。
2016年年底,谷歌发布了Zero-Shot翻译,这种算法能将所有句子转换为“中间语”,即输入语言和和输出语言相同。但谷歌只对它进行了英韩和英日翻译训练,他们的神经网络能够在从未见过类似句子的情况下,对英语和日语进行互译。
谷歌报告说,在使用MultiModel时,执行少量训练数据的任务表现更好。而机器学习模型通常使用较多的训练数据表现更好。采用MultiModel,你可以从多个领域获得额外数据。更重要的是,使用这种方法不会破坏标准任务中的任何现有记录。