spider(蜘蛛)在访问一个网站时,会首先会检查该网站目录是否有一个文件叫做robots.txt的纯文本文件,这个文件用于指定spider(蜘蛛)在你网站是的抓取的范围.比如派思网络的robots.txt文件

一、robots txt是干什么用的

robots txt写法详解及当心事项

一个网站中有良多个文件,其中包括了后盾过程言件、前台模板文件、图片等等。这之中有一些货色我们是不渴望被百度蜘蛛抓取的,怎么办呢?搜查过程考 虑到了这一点,蜘蛛在抓取网站版面之前会先拜会网站根目录下的robots txt文件,万一此文件存在那么按照robots txt限量的范畴举行抓 取,万一不存在,则默感受能够抓取全体。

二、robots txt在seo中在作用

前一篇文章"度娘疏忽robots txt文件的存在" 中我们能够看到,百度一个版面抓取的两个网址,这么会拆开网页的权重,假定咱们写好robots txt就能够遏止这么的情形发生。robots txt 在seo中在作用即便屏障无须要的版面抓取,为管用版面取得蜘蛛抓取的时机。因为屏障无须要版面抓取从而能够版面权重,节俭网络资源最后我们能够将网站 舆图放在里面,方便蜘蛛抓取网页。

三、哪些文件是能够用robots txt屏障的

网页中的模板文件、款式表文件以及后台的某些文件即便呗搜查引擎抓取了也没什么作用,反而是浪费网站资源,这类文件能够屏障万一网页中的某些特定版面好像接洽我们、公司内部某些无须要公布的照片这些都能够依据切实情形举行屏障。

robots的基本设置:

User-agent: *

Disallow: /data/

Disallow: /dede/

Disallow: /images/

Disallow: /include/

Disallow: /plus/

Disallow: /special/

Disallow: /templets/

Disallow: /uploads/

Sitemap: http://www.wenxinsw.cn/sitemap.xml

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。