当前位置: 首页 > 谷歌学院 > 谷歌网盟广告 > 谷歌 Embedding Projector 开源,高维数据可视化变得简单
谷歌 Embedding Projector 开源,高维数据可视化变得简单
文章来源:http://www.googlewz.cn       发布时间:2016-12-23       点击数:

  为了能够更形象、更好的开展机器学习方面的研究,谷歌开源了网页版数据可视化工具Embedding Projector,从而能对高维数据进行可视化的展示和分析。下面上海谷歌推广小编就带大家具体了解一下这款工具。

  随着越来越多的人加入到了机器学习的研究中,该领域的应用范围也在不断拓展,从图像识别,到语言翻译、医疗诊断等。这也意味着探索模型是如何理解数据这一问题变得越来越重要,但是数据通常是用成百上千维的向量表示,因此我们需要一个专门的工具来探索、研究这个数据高维空间。

  网页版数据可视化工具Embedding Projector是可视化工具是TensorFlow的一部分,可以用来对高维数据进行可视化展示与分析。这款工具的开源能帮助大家更加直观的研究数据。

  通常需要训练的数据不能直接作为机器学习算法输入,所以要将这些不同形式的数据进行处理,转换成一种机器可以理解的数据形式。谷歌在这里使用了嵌入方法,将数据表示成一个向量,这个向量包含了数据各个方面的信息。举个容易理解的例子,两个意思相近的词语,在向量空间中是两个不同的点,但是所属的位置是相近的。

  Embedding Projector可以将数据以2D或3D效果展现出来,操作也十分简便。只要轻点鼠标,数据就可以达到旋转和缩放效果。实际操作过程中,在TensorFlow训练一些词向量,将这些词向量通过我们的工具进行可视化展示,点击任意一个词向量的点,那么通过这种算法算出的,与这个词语义相关的词以及其向量空间距离就会罗列出来。它给我们提供了一种非常重要的探究算法性能的方法。

  Embedding Projector提供了三种常用的数据降维方法,分别是PCA、t-SNE以及custom linear projections,这些方法可以使复杂数据的可视化变得简单。PCA用在探究数据内部结构、发现数据重要维度信息上;t-SNE用于探究数据的周围信息、确定其与哪些周围数据属于同类(聚类效果),确保向量保留了数据的含义信息。custom linear projections用于确定数据含义的“方向”。

  Embedding Projector网站上还提供了一些可供下载的数据集。如果你尝试了可视化软件,只要点击“Publish”按钮就可以分享自己的训练结果。希望Embedding Projector在机器学习应用方面,对研发人员有所帮助,也希望帮助大家更好理解,机器学习算法是如何对数据进行解释的。