scrapy 实战(五)爬与反爬

上期主要介绍了,怎么抓取 js 生成的页面。 本期主要,讲一些爬与反爬的一些技巧。 ### 先说反爬: 怎么判断 是爬虫? 通过分析日志 每ip 访问频率、user-agent、cookie, re...

2017-01-25

scrapy 实战(四)如何抓取通过js生成的页面

上期主要介绍了如何将抓取地页面同步到服务端。 本期,主要介绍如何抓取通过js生成的页面。 Scrapy 自身不能执行 js。我们必须给她写个插件 这里需要用到可以执行 js 的工具。 phantom...

2017-01-24

scrapy 实战(二)如何爬取页面中的图片信息

上次说到了,如何构建一个爬虫系统,并介绍了下怎么利用scrapy解析页面信息。 这次介绍下如何爬去页面中的图片。 这里还是以 www.guoku.com 为例。 首先,需要在你的 scrapy 的 s...

2017-01-19

scrapy 实战(一)如何构建一个爬虫系统

如何构建一个爬虫系统? pip install scrapy scrapy startproject examplespider cd /path/to/examplespider/ scrapy c...

2017-01-17