无论是对用户的检索还是对seo都具有非常重要的意义。同时分词技术对搜索引擎本身而言也是相当重要的,分词的准确性关系到检索结果的质量。
1.什么是分词
分词又叫做切词,是将连续的自序列按照一定的规范重新组合成词序列的过程。
(1)基于字符串的匹配也就是机械分词法。机械分词法的原理是将搜索栏的字符串与一个庞大的机器字典中的词进行匹配。常见的三种匹配方式:第一种是正向最大匹配,比如走路和气质,它会切分为走路、和气质。第二种是逆向最大匹配,如果用逆向最大匹配法走路和气质它会拆分为走路、和、气质。第三种是最少切分法,它是使每一句中切出的词数量最少,还可以将上述的方法相互结合。
(2)基于理解的分词方法。指在分词的同时进行句法、语义的分析,利用句法信息和语言信息来处理歧义现象。
以百度搜索引擎为例:百度搜索引擎有一个专有词典,分词时首先查询专有词典(人名、部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果。
检索词在百度的分词情况,根据检索在百度的分词情况,可以得出的结论:
百度同时做出多种分词方式,首先不拆分进行查找,然后先识别专有名词和新词,再对其余部分进行拆分,采用双向最大匹配的方式。
分词对seo的影响
中文分词的准确性往往会影响到搜索引擎排名的相关性。所以就提醒我们,第一要充分利用中文分词撰写网站标题,第二我们要利用中文分词撰写网站描述。