scrapy 实战(五)爬与反爬
上期主要介绍了,怎么抓取 js 生成的页面。
本期主要,讲一些爬与反爬的一些技巧。
先说反爬:
怎么判断 是爬虫?
通过分析日志 每ip 访问频率、user-agent、cookie, request是否执行了
js、等等。来判断用户是人还是机器。当然,还可以让用户输入逆天的图片验证码。
可以部署 kibana 来分析日志。
完全反爬也只能拔了网线。所谓,《三体》中的黑狱。反爬主要还是让爬虫消耗更多的资源,更高的时间成本。
接下来说爬:
了解了些反爬的知识,我们就能采取一些措施。 找代理换不停更换IP、使用随机 user-agent、伪造 cookie、通过 pil,opencv,来识别
图片验证码。(不过逆天图片验证码还是无解)。。
>>这里有个 scrapy 随机生成 user-agent 的插件 scrapy-random-
useragent 有兴趣的童鞋可以试试看
降低抓取频率,尽量模拟真实用户。
把对方网站爬宕机,这种损人不利己事,还是不要做。