爬行时的复制内容检测
检测并删除复制内容通常是在下面介绍的预处理过程中进行的,但现在的蜘蛛在爬行和抓取文件时也会进行定程度的复制内容检测.遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行.这也就是有的站长在日志文件中发现了蜘蛛,但页面从来没有被真正收录过的原因.
预处理
在一些SEO材料中,"预处理"也被简称为"索引",因为索引是预处理最主要的步骤.
搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理.搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关性,计算量太大,不可能在一两秒内返回排名结果.因此抓取来的页面必须经过预处理,为最后的查询排名做好准备.
和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程.
1.提取文字
现在的搜索引擎还是以文字内容为基础.蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、 JavaScript程序等无法用于排名的内容.搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内 容.
今天愚人节哈
除去HTML代码后,剩下的用于排名的文字只是这一行:
今天愚人节哈
除了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等.
2.中文分词
分词是中文搜索引擎特有的步骤.搜索引擎存储和处理页面及用户搜索都是以词为基础的.英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子 划分为单词的集合.而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的.搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一 个词.比如"减肥方法"将被分词为"减肥"和"方法"两个词.