上期主要介绍了，怎么抓取 js 生成的页面。

本期主要，讲一些爬与反爬的一些技巧。

---

 ### 先说反爬：

怎么判断 是爬虫？

通过分析日志 每ip 访问频率、user-agent、cookie， request是否执行了
js、等等。来判断用户是人还是机器。当然，还可以让用户输入逆天的图片验证码。

可以部署 [kibana](https://www.elastic.co/products/kibana) 来分析日志。


完全反爬也只能拔了网线。所谓，《三体》中的黑狱。反爬主要还是让爬虫消耗更多的资源，更高的时间成本。

---

### 接下来说爬：

了解了些反爬的知识，我们就能采取一些措施。 找代理换不停更换IP、使用随机 user-agent、伪造 cookie、通过 pil，opencv，来识别
图片验证码。（不过逆天图片验证码还是无解）。。

&gt;&gt;这里有个 scrapy 随机生成 user-agent 的插件 [scrapy-random-
useragent](https://github.com/cnu/scrapy-random-useragent) 有兴趣的童鞋可以试试看

降低抓取频率，尽量模拟真实用户。

把对方网站爬宕机，这种损人不利己事，还是不要做。

---

[项目源代码](https://github.com/edison7500/andromeda)

scrapy 实战（五）爬与反爬

上期主要介绍了如何将抓取地页面同步到服务端。

本期，主要介绍如何抓取通过js生成的页面。

---

## Scrapy 自身不能执行 js。我们必须给她写个插件

这里需要用到可以执行 js 的工具。

[phantomjs](http://phantomjs.org/) 或者 [python-
splash](http://splash.readthedocs.io/en/stable/)

python-splash 这里不做介绍了。又兴趣的童鞋可以参考 这里 &gt;&gt; [scrapy-splash](https://github.com/scrapy-plugins/scrapy-splash) 简单易懂方便安装。

--- 

## 接下来主要介绍下 scrapy + phantomjs

#### 首先，在 settings.py 中加入一下配置：

```.python
# Enable or disable spider middlewares  
# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html

SPIDER_MIDDLEWARES = {  
        'andromeda.middlewares.downloader.PhantomJSDownloader': 100, #加入 phantomjs 下载中间件
    }

PHANTOMJS_PATH    = '/usr/local/bin/phantomjs' # 指定 phantomjs 的路径
PHANTOMJS_SPIDER  = ['guoku']                  # 配置 那些 spider 需要用到 phantmjs 抓取 
```

> 注：phantomjs 抓取页面开销很大。非必需，不建议采用

### 接着找到 middlewares/downloader.py 这个文件

```.python
    # coding=utf-8  
      
    from scrapy.http import HtmlResponse  
    from selenium import webdriver          #导入 selenium 链接 phantomjs 驱动  
    # from urlparse import urlparse  
      
    from andromeda import settings  
    import logging  
      
      
    class PhantomJSDownloader(object):  
      
        def process_request(self, request, spider):   
            response    = None  
            if spider.name in settings.PHANTOMJS_SPIDER:     
                browser = webdriver.PhantomJS(executable_path=settings.PHANTOMJS_PATH)  
                try:  
                    browser.set_window_size(800, 600) # 设置浏览器屏幕尺寸  
                    browser.get(request.url)  
                    content     = browser.page_source.encode("utf-8")  
                    url         = browser.current_url.encode('utf-8')  
                    response = HtmlResponse(url, encoding='utf-8', status=200, body=content)  
                except Exception as e:  
                    logging.error(e.message)  
                finally:  
                    browser.close()   # 关闭 selenium   
                return response       # 返回响应结果  
      
        def process_response(self, request, response, spider):  
            return response  
```

---

#### 解释下以上代码：

  1. 给 scrapy 写下载中间件 主要重写 ```def process_request(self, request, spider):```这个方法
  2. ```browser.set_window_size(800, 600)``` 设置浏览器屏幕尺寸 
  3. ```content = browser.page_source.encode("utf-8") ```获取 phantomjs 加载的页面。
  4. 页面抓取完成，一定要关闭浏览器。

---

[项目源代码](https://github.com/edison7500/andromeda)

scrapy 实战（四）如何抓取通过js生成的页面

上次说到了，如何构建一个爬虫系统，并介绍了下怎么利用scrapy解析页面信息。

这次介绍下如何爬去页面中的图片。

_这里还是以 [www.guoku.com](https://www.guoku.com/) 为例。_

  

首先，需要在你的 scrapy 的 settings.py 加入一下配置

    
    
    ITEM_PIPELINES = {  
        'scrapy.pipelines.images.ImagesPipeline': 1  
    }
    IMAGES_STORE = '/tmp/images'  #设置下载图片的目录
    

然后，EntityItem 加入image_urls, 和 images 字段

    
    
      
    class EntityItem(scrapy.Item):  
        brand   = scrapy.Field(  
            input_processor=MapCompose(remove_tags),  
            output_processor=TakeFirst(),  
        )  
        title   = scrapy.Field(  
            input_processor=MapCompose(remove_tags),  
            output_processor=TakeFirst(),  
        )  
        price   = scrapy.Field(  
            input_processor=MapCompose(remove_tags),  
            output_processor=TakeFirst(),  
        )  
        image_urls  = scrapy.Field()       # 这个字段是页面中图片的 URL
        images     = scrapy.Field()        # 这个字段代表 图片下载到本地后的路径。
    

最后，还是要解析下html 页面来提取 图片链接  

    
    
    def pares_entity(self, response):  
        self.logger.info(response.url)  
      
        item            = ItemLoader(item=EntityItem(), response=response)  
        item.add_css('brand', 'div.brand')  
        item.add_css('title', 'div.entity-title')  
        item.add_css('price', 'div.price-tag > span', re='(\d+\.\d+)')  
        
        #这里就是提取 html 中我们需要下载的图片链接
        item.add_css('image_urls', 'div.other-pic-list > a > img::attr(src)')
        return item.load_item()
    

  

**注： **

这里我使用了 ItemLoader 来构建 一个商品实例。具体怎么用可以参考 &gt;&gt;
[scrapy.org](https://doc.scrapy.org/en/latest/topics/loaders.html) &lt;&lt;。

  

[项目源代码](https://github.com/edison7500/andromeda)

scrapy 实战（二）如何爬取页面中的图片信息

**如何构建一个爬虫系统?**
    
    
    pip install scrapy
    scrapy startproject examplespider
    cd /path/to/examplespider/
    scrapy crawl <http://example.com/>
    

对就这样完事了。一个基础的爬虫系统已经构建了。

  

然而，这远远是不够的。

比如： js生成的页面，抓页面图片，html解析，重复性检查，等等。

接下来，以抓取 [www.guoku.com](http://www.guoku.com) 为例构建一个 scrapy 项目

    
    
    scrapy startproject andromeda
    

  * 看下目录结构:

~~~~.shell
    
    ├── andromeda
    │   ├── __init__.py
    │   ├── __init__.pyc
    │   ├── items.py
    │   ├── middlewares    
    │   │   ├── __init__.py
    │   │   └── downloader.py  #增加下载器中间件
    │   ├── pipelines.py
    │   ├── settings.py
    │   ├── settings.pyc
    │   └── spiders
    │       ├── __init__.py
    │       └── guoku.py    # 增加了抓取 guoku.py 
    └── scrapy.cfg  
~~~~

这里主要说明两个文件:

    
    
    guoku.py
    items.py
    
    

**首先 item.py**
    
    
    # -*- coding: utf-8 -*-  
      
    import scrapy  
      
      
    class EntityItem(scrapy.Item):  
        brand   = scrapy.Field()  
        title   = scrapy.Field()
        price = scrapy.Field()
    

这里构建了一个 EntityItem 类。把我们需要的 数据建立一个类

这里包含了，

商品的品牌，名称，价格，等信息。图片下期再说。

  

**再次是 guoku.py**

定义完数据结构，我们就可以实施抓取了。

    
    
    # coding=utf-8  
    import scrapy  
    from urlparse import urlparse  
    from andromeda.items import EntityItem  
      
      
      
    class GKSpider(scrapy.Spider):    #定义一个爬虫类  
      
        name    = "guoku"             #定义爬虫名字  
        allowed_domains = [  
            'guoku.com',  
        ]  
      
      
        def __init__(self, *args, **kwargs):  
            super(GKSpider, self).__init__(*args, **kwargs)  
            self.start_urls = [  
                    "<https://www.guoku.com/selected>/", #定义需要抓取URL  
            ]  
      
        def parse(self, response):  
            o = urlparse(response.url)  
            urls    = response.css('a.img-entity-link::attr(href)').extract()  
            for uri in urls:  
                url = "{scheme}://{host}{uri}".format(scheme=o.scheme,  
                                                        host=o.netloc,  
                                                        uri=uri)  
                yield scrapy.Request(url, self.pares_entity)  
      
        def pares_entity(self, response):  
            self.logger.info(response.url)  
      
            item            = EntityItem()  
            item['brand']   = response.css('div.brand::text').extract_first()  
            item['title']   = response.css('div.entity-title::text').extract_first()  
            item['price']   = response.css('div.price-tag > span::text').extract_first()  
            return item

  

start_urls 定义我们需要抓取的链接  

    
    
      
    def __init__(self, uri, *args, **kwargs):  
        super(GKSpider, self).__init__(*args, **kwargs)  
        self.start_urls = [  
                "https://www.guoku.com/{uri}/".format(uri=uri),
        ]  
    

  

解析列表页

    
    
    def parse(self, response):  
        o = urlparse(response.url)
        #这里主要解析出列表页中的单页的 URL  
        urls    = response.css('a.img-entity-link::attr(href)').extract()
      
        for uri in urls:
            #通过 for 循环将单页的URL压入堆栈   
            url = "{scheme}://{host}{uri}".format(scheme=o.scheme,  
                                                    host=o.netloc,  
                                                    uri=uri)
            yield scrapy.Request(url, self.pares_entity)

解析单页

    
    
    def pares_entity(self, response):  
        self.logger.info(response.url)  
    
        #实例化 EntityItem 类。 通过解析器获取 html 中我们所需要的信息  
        item            = EntityItem()  
        item['brand']   = response.css('div.brand::text').extract_first()  
        item['title']   = response.css('div.entity-title::text').extract_first()  
        item['price']   = response.css('div.price-tag > span::text').extract_first()
        return item

  

[项目源代码](https://github.com/edison7500/andromeda)

scrapy 实战（五）爬与反爬

scrapy 实战（四）如何抓取通过js生成的页面

scrapy 实战（二）如何爬取页面中的图片信息

scrapy 实战（一）如何构建一个爬虫系统

GitHub