搜索引擎抓取:
1、爬虫SPider顺着网页中的超链接,在互联网中发现、搜集网页信息
2、蜘蛛的抓取方式
1)深度抓取(竖着抓取,先抓取完一个栏目的内容页,然再换个栏目以同样的方式抓取)
2)广度抓取(横着抓取,先抓取完每个栏目也,再抓取每个栏目页下面的内容页)
3、不利于蜘蛛识别的内容
js代码,iframe框架代码机构,图片(添加alt属性辅助识别),flash(视频前后加文字辅助搜索引擎识别),需要登录之后才能获取的页面信息,嵌套table等
网站结构:首页——栏目页——内容详情页
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。