进修搜索引擎优化的人常常在网上看到一句话:搜索引擎蜘蛛跟浏览器差不多,都是抓取页面。那末究竟哪些同样哪些分歧样?Ethan就经过浏览器协助大师了解搜索引擎蜘蛛怎么抓取页面。
搜索引擎蜘蛛抓取页面过程图解
起首看一张图,是用firebug(firefox浏览器的一个驰名插件)记载上去的浏览器抓取我网站的状况。
针对于图中标识,Ethan标明以下。
1.http协定开端,HTTP协定是典范的申请/呼应形式,客户端申请服务器,而后客户端以及服务器建设暂时通道,而后服务器前往呼应。这里浏览器是一种客户端顺序,搜索引擎蜘蛛也是一种客户端顺序。客户端向服务器发送申请行,而后是申请头信息。图中左上角有GET,反应了申请行的内容,真正的申请行是上面这行,firebug没有昭示:
GET / HTTP/1.1
这行的格局是:
申请办法(get、post等)+一个空格+申请的URL(这里/示意首页)+一个空格+http协定版本(如今凡是是HTTP/1.1,便是http协定1.1版)
记着这个格局,咱们在服务器日记里还会看到这类格局的数据。
申请行前面紧跟着申请头信息,此中行是host字段,指明白服务器是www.***.com,这是个域名,经过DNS域名剖析,酿成ip地点,也便是服务器的物理地点。
2.ip地点,前面冒号加80,标明拜访的是服务器的80端口。服务器不断处于待命形态,侦听80端口,一旦发明有合乎HTTP协定的头信息发过去,就以及客户端建设一个暂时通道,而后停止外部解决,并把后果经过暂时通道前往给客户端。在这个解决的同时,服务器还能够承受别的HTTP申请。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。