当做好了PC站点与移动站点的适配之后,接下来就是等待百度的抓取收录了。我们可以通过以下几点来加速网站被搜索引擎抓取:

  • 不要通过robotsagent封禁的方式调配PC或移动蜘蛛

    User-agent: *

    Disallow: /

    长春优化公司介绍,如果发现你的网站robots文件中的写法如上,就代表封禁了所有搜索引擎抓取网站的网页。

    • 不要将重要的页面添加nofollow标签

    • 不要在服务器端轻易设置屏蔽某IP段的访问,很有可能该IP就是搜索引擎的

      如何正确识别百度移动ua?

      (援引http://zhanzhang.baidu.com/college/articleinfo?id=335)

      新版移动ua:

      Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

      PC ua:

      Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

      之前通过“+http://www.baidu.com/search/spider.html”进行识别的网站请注意!您需要修改识别方式,新的正确的识别Baiduspider移动ua的方法如下:

      • 通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。

      • 通过关键词“Baiduspider/2.0”,判断为百度爬虫。

        另外需要强调的是,对于robots封禁,如果封禁的agent是Baiduspider,会对PC和移动同时生效。即,无论是PC还是移动Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个url,PC ua打开的时候是PC页,移动ua打开的时候是移动页),想通过设置robots的agent封禁达到只让移动Baiduspider抓取的目的,但由于PC和移动Baiduspider的agent都是Baiduspider,这种方法是非常不可取的。

        • 通过百度站长工具中链接提交工具进行实时提交

          • 制作好移动站点的sitemap文件,并通过百度站长工具sitemap提交方式提交

          • 通过分析移动站点的log日志,找到响应代码异常的URL,排查原因并解决

            • 服务器错误:爬虫发起抓取,httpcode返回码是5XX

            • 访问被拒绝:爬虫发起抓取,httpcode返回码是403

            • 找不到页面:爬虫发起抓取,httpcode返回码是404

            • 其他错误:爬虫发起抓取,httpcode返回码是4XX,不包括403和404

              转载请保留本文地址:1346.除特别声明,本站内容均为原创!

              声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。