python 25 Jan 2017 · 1 min read scrapy 实战(五)爬与反爬 上期主要介绍了,怎么抓取 js 生成的页面。 本期主要,讲一些爬与反爬的一些技巧。 先说反爬: 怎么判断 是爬虫? 通过分析日志 每ip 访问频率、user-agent、cookie, request是否执行了 js、等等。来判断用户是人还是机器。当然,还可以让用户输入逆天的图片验证码。 可以部署 kibana 来分析日志。 完全反爬也只能拔了网线。所谓,《三体》中的黑狱。反爬主要还是让爬虫消耗更多的资源,更高的时间成本。 接下来说爬: Read more
python 24 Jan 2017 · 2 min read scrapy 实战(四)如何抓取通过js生成的页面 上期主要介绍了如何将抓取地页面同步到服务端。 本期,主要介绍如何抓取通过js生成的页面。 Scrapy 自身不能执行 js。我们必须给她写个插件 这里需要用到可以执行 js 的工具。 phantomjs 或者 python- splash python-splash 这里不做介绍了。又兴趣的童鞋可以参考 这里 >> scrapy-splash 简单易懂方便安装。 接下来主要介绍下 scrapy + phantomjs 首先,在 settings.py 中加入一下配置: Read more
python 22 Jan 2017 · 2 min read scrapy 实战(三)页面抓取完成如何同步到服务端 上次讲到了,如何提取页面中的图片资源。 接下来,介绍页面抓取完成如何同步到服务端 或者写入数据库。 首先, 在 settings.py 添加一行设置 # 设置 抓取的页面 post 到服务器的 地址 SERVER_URL = 'http://localhost:8000/api/entities/' 接着,在写 scrapy 的 提交信息的 pipelines. Read more
python 19 Jan 2017 · 1 min read scrapy 实战(二)如何爬取页面中的图片信息 上次说到了,如何构建一个爬虫系统,并介绍了下怎么利用scrapy解析页面信息。 这次介绍下如何爬去页面中的图片。 这里还是以 www.guoku.com 为例。 首先,需要在你的 scrapy 的 settings.py 加入一下配置 ITEM_PIPELINES = { 'scrapy.pipelines.images.ImagesPipeline': 1 } IMAGES_STORE = '/tmp/images& Read more
python 18 Jan 2017 · 2 min read scrapy 实战(一)如何构建一个爬虫系统 如何构建一个爬虫系统? pip install scrapy scrapy startproject examplespider cd /path/to/examplespider/ scrapy crawl <http://example.com/> 对就这样完事了。一个基础的爬虫系统已经构建了。 然而,这远远是不够的。 比如: js生成的页面,抓页面图片,html解析,重复性检查,等等。 接下来,以抓取 Read more