爬行时的复制内容检测

检测并删除复制内容通常是在下面介绍的预处理过程中进行的,但现在的蜘蛛在爬行和抓取文件时也会进行定程度的复制内容检测.遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行.这也就是有的站长在日志文件中发现了蜘蛛,但页面从来没有被真正收录过的原因.

预处理

在一些SEO材料中,"预处理"也被简称为"索引",因为索引是预处理最主要的步骤.

搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理.搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关性,计算量太大,不可能在一两秒内返回排名结果.因此抓取来的页面必须经过预处理,为最后的查询排名做好准备.

和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程.

1.提取文字

现在的搜索引擎还是以文字内容为基础.蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、 JavaScript程序等无法用于排名的内容.搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内 容.

今天愚人节哈

除去HTML代码后,剩下的用于排名的文字只是这一行:

今天愚人节哈

除了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等.

2.中文分词

分词是中文搜索引擎特有的步骤.搜索引擎存储和处理页面及用户搜索都是以词为基础的.英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子 划分为单词的集合.而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的.搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一 个词.比如"减肥方法"将被分词为"减肥"和"方法"两个词.

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。