scrapy添加代理ip：中间件配置详解，让爬虫稳定运行

Scrapy爬虫的代理IP中间件：为什么需要它？

当你用Scrapy框架写爬虫时，可能会遇到一个头疼的问题：目标网站把你的IP给封了。这就像你反复去敲同一家的门，主人很快就认出来是你，不再给你开门了。这时候，代理IP就派上用场了。它相当于给你换了个新地址（IP地址）去敲门，网站看到的是不同的访客，自然就降低了被封的风险。

Scrapy框架本身很强大，但它没有内置一键操作代理IP的功能。这就需要我们通过编写一个“中间件”来告诉Scrapy：“嘿，每次发请求之前，记得用我提供的这个新地址。” 这个中间件，就是我们今天要详细配置的核心。

搭建代理IP中间件：从零开始配置

你需要在Scrapy项目中找到middlewares.py这个文件。我们将在这里创建一个新的类。别担心，代码并不复杂。

import random

class ProxyMiddleware(object):
    def __init__(self, proxy_list):
        self.proxies = proxy_list

    @classmethod
    def from_crawler(cls, crawler):
         从settings.py中加载代理IP列表
        return cls(
            proxy_list=crawler.settings.get('PROXY_LIST')
        )

    def process_request(self, request, spider):
         随机选择一个代理IP
        proxy = random.choice(self.proxies)
        request.meta['proxy'] = proxy
        print(f"当前使用代理: {proxy}")

这段代码做了几件事：初始化时载入代理IP列表，然后在每次请求前，随机选一个IP，并把它设置到请求里。这里我们用了随机选择，是为了让IP的使用更分散，模拟更自然的行为。

如何获取并管理你的代理IP池

中间件写好了，但“巧妇难为无米之炊”，你得有代理IP才能用。这里就涉及到代理IP服务商的选择。一个稳定、高质量的IP池是爬虫稳定运行的基础。

以神龙IP代理为例，它提供了覆盖广泛的纯净IP资源。对于Scrapy这类需要大量、频繁更换IP的爬虫项目，他们的动态高级套餐就非常合适。这个套餐的IP存活时间可以灵活控制，每天有海量IP更新，正好满足爬虫“频繁请求、需要大量不同IP”的特点。而且6Mbps的带宽对于普通数据采集来说也足够流畅。

拿到代理IP后（通常是类似http://username:password@ip:port或http://ip:port的格式），你需要把它们整理成一个列表，放在Scrapy的配置文件settings.py里：

 settings.py 文件中添加

PROXY_LIST = [
    'http://12.34.56.78:8080',
    'http://23.45.67.89:8888',
     ... 更多代理IP
]

 启用并设置中间件的优先级
DOWNLOADER_MIDDLEWARES = {
    'your_project_name.middlewares.ProxyMiddleware': 543,  数字越小优先级越高
}

让中间件更智能：错误处理与重试机制

网络世界充满不确定性，即使再好的代理IP也可能偶尔失效。一个健壮的中间件必须能处理这种情况。我们需要增强它的容错能力。

from scrapy.exceptions import IgnoreRequest

class Middleware(ProxyMiddleware):  继承之前写的中间件
    def process_exception(self, request, exception, spider):
         当请求发生异常时（如连接超时、代理失效）
        failed_proxy = request.meta.get('proxy')
        if failed_proxy and failed_proxy in self.proxies:
             简单示例：从池中移除失效代理（生产环境可更复杂，如记录重试次数）
            self.proxies.remove(failed_proxy)
            print(f"移除失效代理: {failed_proxy}, 剩余 {len(self.proxies)} 个代理")
        
         重新调度这个请求，Scrapy会自动重试
        return request

在settings.py中开启重试，并设置重试次数：

RETRY_ENABLED = True
RETRY_TIMES = 3   重试次数
RETRY_HTTP_CODES = [500, 502, 503, 504, 408, 403]   遇到这些状态码也重试

这样，当某个代理IP失效导致请求失败时，中间件会尝试移除它，并且Scrapy框架会自动用新的代理IP重试这个请求，大大提高了爬虫的鲁棒性。

根据业务选择代理IP类型

不是所有爬虫场景都用同一种代理IP。选择对了，事半功倍。

动态高级/独享套餐：适用于绝大多数公开数据采集。IP不断变化，能有效规避反爬。区别在于独享套餐带宽更高（10Mbps），适合对速度要求更极致的场景。
静态高级套餐：如果你的爬虫需要长期维持一个会话（比如需要登录态），或者目标网站允许来自固定IP的规律访问，那么长期稳定的静态IP是更好的选择。它能防止因为IP频繁变动而触发的额外验证。

神龙IP代理支持多种协议，在Scrapy中，我们通常使用HTTP/HTTPS或SOCKS5协议。配置时注意协议头要写对（http:// 或 socks5://）。

常见问题QA

Q1：配置了代理中间件，但爬虫速度变得非常慢，是什么原因？

A：这通常有几个原因：一是代理IP本身的网络延迟高；二是免费或低质代理IP带宽不足，成为瓶颈；三是中间件逻辑复杂，增加了处理开销。建议：1）选择像神龙IP代理这样提供高速带宽（如6-15Mbps可定制）的服务商；2）检查代理IP的可用性和速度，定期清理失效IP；3）优化中间件代码，避免在process_request中进行耗时操作。

Q2：网站仍然检测到了我在使用代理，怎么办？

A：这说明你使用的代理IP“纯净度”不够，可能已经被目标网站标记为“数据中心IP”或列入黑名单。解决方案是使用高匿名、高纯净度的代理IP。例如神龙IP代理的自营机房纯净IP，能更好地模拟真实用户环境。可以结合User-Agent轮换、请求频率控制等策略，让爬虫行为更“人性化”。