当做好了PC站点与移动站点的适配之后,接下来就是等待百度的抓取收录了。我们可以通过以下几点来加速网站被搜索引擎抓取:
- 不要通过robotsagent封禁的方式调配PC或移动蜘蛛
User-agent: *
Disallow: /
长春优化公司介绍,如果发现你的网站robots文件中的写法如上,就代表封禁了所有搜索引擎抓取网站的网页。
- 不要将重要的页面添加nofollow标签
- 不要在服务器端轻易设置屏蔽某IP段的访问,很有可能该IP就是搜索引擎的
如何正确识别百度移动ua?
(援引http://zhanzhang.baidu.com/college/articleinfo?id=335)
新版移动ua:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC ua:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
之前通过“+http://www.baidu.com/search/spider.html”进行识别的网站请注意!您需要修改识别方式,新的正确的识别Baiduspider移动ua的方法如下:
- 通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。
- 通过关键词“Baiduspider/2.0”,判断为百度爬虫。
另外需要强调的是,对于robots封禁,如果封禁的agent是Baiduspider,会对PC和移动同时生效。即,无论是PC还是移动Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个url,PC ua打开的时候是PC页,移动ua打开的时候是移动页),想通过设置robots的agent封禁达到只让移动Baiduspider抓取的目的,但由于PC和移动Baiduspider的agent都是Baiduspider,这种方法是非常不可取的。
- 通过百度站长工具中链接提交工具进行实时提交
- 制作好移动站点的sitemap文件,并通过百度站长工具sitemap提交方式提交
- 通过分析移动站点的log日志,找到响应代码异常的URL,排查原因并解决
- 服务器错误:爬虫发起抓取,httpcode返回码是5XX
- 访问被拒绝:爬虫发起抓取,httpcode返回码是403
- 找不到页面:爬虫发起抓取,httpcode返回码是404
- 其他错误:爬虫发起抓取,httpcode返回码是4XX,不包括403和404
转载请保留本文地址:1346.除特别声明,本站内容均为原创!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
- 通过百度站长工具中链接提交工具进行实时提交