搜索引擎优化:搜索引擎原理,分词技术解析,中文搜索排名核心

2019-01-22 09:41:37 董宝山 21

  分词技术是中文搜索引擎中特有的技术,英文以一个单词为单位,一个单词有明确的意思,有空格可进行间隔,但是中文中通常一句话才能完整表达一个意思,计算机不能直接把中文拆解成单个字来分析,因此需要引入中文分词技术讲一句话切割成一个个有意义的词语进行解释。在这里举例,我是一个学生会切分成我/是/一个/学生。

  搜索引擎对中文页面就是这样通过中文分词来理解网页所描述的内容。搜索引擎会使用自己强大的词库来对网页内容进行拆分,或者对内容进行机械切割,统计出现次数最多的词,进而判断该网页是干什么的。很多SEO的工作人员知道分词技术却不知道分词技术的原理,以及不明白如何将该技术运用到实际操作中。

  搜索引擎对中文的理解和分词技术一直没有太大进展,虽然已经能够识别中文网址,但是总体上的理解在技术上还是有欠缺的。因此这一块的技术值得大家仔细去研究一下,可以更好的在实操中理解运用。中文分词技术主要有两种:基于词典匹配和基于统计。也有研究基于语义分析的分词方法,但是计算机在中文解析上并不是很优秀。

  第一:基于词典匹配

  顾名思义,基于词典匹配意思就是,搜索引擎基于自己的词典对网页内容进行拆分,有正向匹配和逆向匹配两种方式;按照不同长度优先可以分为最长匹配和最短匹配。常见的三种匹配方法是正向最大匹配(由左到右)、逆向最大匹配(由右到左)和最少切分。

  这一种方法拆分分析取决于搜索引擎已有词典,词典中内容丰富则可以更精确的进行分词。

  第二:基于统计

  这种分词技术不依靠词典,,而是对大量文字样本进行分析,然后把相邻出现次数比较多的几个字当成一个词来处理。基于统计的分词方法也决定着搜索引擎词典更新的问题,且有利于消除歧义。

  在这里不讲搜索引擎能理解多少中文意思,就举例比如,以前喜欢一个人,现在喜欢一个人,人脑分析尚需反应,何况搜索引擎。

  分词原理如何运用

  搜索引擎会八王爷拆分出来的词按照次品进行排序,然后结合之前讲过的TF-IDF算法来确定该网页和哪些词有关,主要讲解的内容是什么,并进行相关度计算。因此SEO人员进行内容建设和关键词布局的时候,可以把一个关键词分成更小的单位进行拆分布局。例如:搜索引擎优化公司,可以拆分成搜索引擎优化,公司或者搜索引擎优化,优化公司等多种方式。结合实际搜索情况进行分析,大家就会发现拆词利用比较好的网站可以比全匹配的网站拥有更好的排名。这个举例就利用到了前面讲的正向最大匹配、逆向最大匹配和最少切分,大家可以再仔细研究理解一下。