要知道在网站优化过程中,有时需要阻止搜索引擎蜘蛛,也就是说,禁止在网站上某处抓取,那么我们应该如何阻止搜索引擎蜘蛛呢?我们来看看具体的操作方法。

百度蜘蛛抓取我们的网站,希望我们的网页能被包含在它的搜索引擎中。将来,当用户搜索时,它会给我们带来一定量的搜索引擎优化流量。当然,我们不想让搜索引擎抓取所有东西。

 因此,此时我们只希望能够抓取搜索引擎搜索到的内容。例如,用户的隐私和背景信息不希望搜索引擎被捕获和包含。解决这些问题有最佳方法,如下所示:

robots协议文件屏蔽百度蜘蛛抓取

robots协议是放在网站根目录下的协议文件,可以通过网址访问,当百度蜘蛛抓取我们的网站时,它会先访问这个文件。因为它告诉蜘蛛哪些能抓,哪些不能。

robots协议文件的设置比较简单,可以通过User-Agent、Disallow、Allow这三个参数进行设置。

User-Agent:对不同搜索引擎的声明;

Disallow:不允许抓取的目录或页面;

Allow:被允许抓取的目录或页面通常可以省略或不写,因为如果你不写任何不能抓取的东西,它就可以被抓取。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。