SEO技术

网站优化中Robots协议的原则标签及其他属性

seo优化

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

一、原则

Robots协议是国际互联网界通行的道德规范,基于以下原则建立:

1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;

2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

二、标签

Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots Meta标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

1.index指令告诉搜索机器人抓取该页面;

2.follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

3.Robots Meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index、nofollow。

三、其他属性

1. Robot-version: 用来指定robot协议的版本号

例子: Robot-version: Version 2.0

2.Crawl-delay:雅虎YST一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。

3. Visit-time:只有在visit-time指定的时间段里,robot才可以访问指定的URL,否则不可访问.

例子: Visit-time: 0100-1300 #允许在凌晨1:00到13:00访问

4. Request-rate: 用来限制URL的读取频率

例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之间,以每分钟40次的频率进行访问

Request-rate: 12/1m 0800 - 1300 在8:00到13:00之间,以每分钟12次的频率进行访问

转载请注明来自:

标签:网站优化 Robots点瑞科技

本文由 长春SEO优化-网络推广-网站托管外包 作者:青玉seo 发表,转载请注明来源!

seo优化