Scrapy怎么加代理IP：框架配置与实战案例

Scrapy爬虫为什么要用代理IP？

很多刚接触网络爬虫的新手都会遇到这样的困惑：明明代码运行正常，但采集几十页数据后突然就被网站封了IP。这是因为多数网站都设置了反爬虫机制，当检测到同一IP地址频繁请求时就会触发限制。

举个真实场景：某用户需要采集电商平台商品信息做价格监控，用自己家宽带IP连续访问200次后，页面开始返回403错误。这时候如果更换新的IP地址，采集任务就能继续执行。这正是代理IP的核心价值——通过IP地址轮换突破单个IP的访问限制。

Scrapy配置代理IP的两种方法

在Scrapy框架中实现代理IP功能，主要有两种主流方案，我们通过具体代码示例来说明：

方法一：中间件全局配置

在settings.py文件中添加以下配置，这是最常用的方式：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 400,
}

PROXY_LIST = [
    'http://用户名:密码@ip:端口',
    'socks5://用户名:密码@ip:端口'
]

这里推荐使用神龙IP提供的SOCKS5协议代理，相比HTTP代理，SOCKS5支持更全面的协议类型且加密性更好。在代码中直接替换为神龙IP控制台获取的代理地址即可，注意不同协议要使用对应的前缀（如socks5://）。

方法二：Request请求参数配置

对于需要精细控制的场景，可以在生成请求时单独指定代理：

yield scrapy.Request(
    url=url,
    meta={'proxy': 'socks5://神龙IP代理地址:端口'},
    callback=self.parse
)

这种方式适合需要动态切换代理的场景，配合神龙IP的自动换IP功能，可以在每次请求时使用不同的出口IP。他们的代理软件支持设置IP切换频率，从5分钟到24小时可调，保证每个请求都能使用有效IP。

电商数据采集实战案例

我们以采集某电商平台手机价格为例，演示完整代理IP应用流程：

步骤	操作要点
1. 创建项目	使用scrapy startproject命令初始化项目
2. 配置中间件	在middlewares.py中添加代理验证逻辑
3. 设置并发参数	将CONCURRENT_REQUESTS设为8-12，避免过高并发
4. 接入神龙IP	在请求头中添加代理认证信息

关键代码片段：

class ProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = 'socks5://动态隧道代理地址'
        request.headers['Proxy-Authorization'] = basic_auth_header('用户名', '密码')

这里使用神龙IP的动态隧道代理服务，无需手动维护IP池，每次请求自动分配新IP。实测连续采集5000条数据，成功率保持在98%以上，比自建代理池稳定得多。

常见问题解决方案

Q1：代理IP经常连接超时怎么办？

① 检查代理协议是否匹配（如网站是HTTPS但用了HTTP代理）
② 在下载中间件添加retry中间件自动重试
③ 联系神龙IP技术支持检查节点状态

Q2：如何验证代理是否生效？

在Scrapy的start_requests方法中添加测试代码：

def start_requests(self):
    yield Request('http://httpbin.org/ip', self.check_proxy)

def check_proxy(self, response):
    print('当前使用IP:', response.json()['origin'])