在SEO优化热潮的大背景下,百度分词技术显得越来越重要。成为了SEOer们关键词布局的必备技能之一。百度分词指的是百度基于用户提交查询的关键词串进行查询处理后,用各种方法对关键词串匹配的一种技术。下面谷歌推广的小编讲述一下分词的原理。
百度分词的四大原理:
1、基于理解:字符限制,只有搜索4个及以上的中文字符才会触发百度的分词技术,小于或等于3个中文字符百度是不会进行分词的,比如搜索’’珍岛”。
2、基于统计:百度有关键词标红的功能,出现标红的原因正常是一个关键词,比如搜索“珍”的时候,百度可能自认为“珍惜”也当成了一个关键词,所以出现“珍惜”这个词标红,这就是基于统计分词。
3、基于字符串匹配(百度的分词法:正向最大切词法)
最大与最小(最大匹配:一直匹配到没词可配;最小匹配:匹配出词了就停止匹配,再从另一个词开始匹配)比如:百度搜索“湖南大学堂屋顶”,百度的一个分词算法我们把它当成一个黑盒子,我们通过一些输入关键词,根据百度的输出结果来判定百度的分词算法。正向与反向(正向:从前往后配;反向:从后往前配)
4、基于专有词库:比如一些杰出人物以及明星或者检索量大的词,百度会有些匹配。