scrapy

Home Posts Tagged "scrapy"
scrapy 实战(五)爬与反爬 python
· 1 min read

scrapy 实战(五)爬与反爬

上期主要介绍了,怎么抓取 js 生成的页面。 本期主要,讲一些爬与反爬的一些技巧。 先说反爬: 怎么判断 是爬虫? 通过分析日志 每ip 访问频率、user-agent、cookie, request是否执行了 js、等等。来判断用户是人还是机器。当然,还可以让用户输入逆天的图片验证码。 可以部署 kibana 来分析日志。 完全反爬也只能拔了网线。所谓,《三体》中的黑狱。反爬主要还是让爬虫消耗更多的资源,更高的时间成本。 接下来说爬:

Read more
scrapy 实战(四)如何抓取通过js生成的页面 python
· 2 min read

scrapy 实战(四)如何抓取通过js生成的页面

上期主要介绍了如何将抓取地页面同步到服务端。 本期,主要介绍如何抓取通过js生成的页面。 Scrapy 自身不能执行 js。我们必须给她写个插件 这里需要用到可以执行 js 的工具。 phantomjs 或者 python- splash python-splash 这里不做介绍了。又兴趣的童鞋可以参考 这里 >> scrapy-splash 简单易懂方便安装。 接下来主要介绍下 scrapy + phantomjs 首先,在 settings.py 中加入一下配置:

Read more