爬虫如何设置代理IP：防封禁策略与代码示例分享

爬虫为什么要用代理ip？先搞懂原理

做过数据采集的朋友都知道，很多网站会通过IP访问频率检测来识别爬虫。当同一个IP在短时间内发起大量请求，服务器就会触发封禁机制。这时候就需要代理IP来分散请求来源，让目标网站以为是不同用户在访问。

举个实际场景：某企业需要监测全国30个城市的天气数据，如果只用本地IP每小时请求30次，很快就会触发反爬机制。使用神龙IP的动态ip池，每次请求切换不同城市节点，既能保证数据采集效率，又能避免IP被封。

选代理IP的三大核心指标

市面上的代理服务参差不齐，选择时重点关注这三个维度：

指标	说明	神龙IP方案
协议兼容性	支持常见网络协议	提供SOCKS5/PPTP/L2TP等5种协议
IP稳定性	连接成功率与速度	动态IP池存活率>98%
切换便捷度	IP更换操作复杂度	Windows客户端支持自动轮换

四步搭建防封禁系统

这里分享经过实战验证的方案，配合神龙IP可实现长期稳定采集：

第一步：设置IP轮换策略
在代码中设置随机切换间隔，建议每5-10个请求更换ip。使用动态代理时，建议通过神龙IP的API接口实时获取可用IP列表。

第二步：模拟真实请求特征
在headers中添加常见浏览器标识，特别注意处理： - User-Agent轮换库 - Referer来源随机化 - 合理设置Accept-Language

第三步：控制请求频率
两个实用技巧： 1. 在请求间隔加入随机延迟（0.5-3秒） 2. 分时段采集，避开流量高峰

第四步：异常处理机制
当出现403/503状态码时： 1. 立即暂停当前IP的请求 2. 记录异常IP到隔离名单 3. 自动切换新IP继续任务

Python爬虫实战代码

以requests库为例演示代理设置：

import requests
from random import choice

 从神龙IP获取的代理列表
proxies = [
    "http://账号:密码@ip1:端口",
    "http://账号:密码@ip2:端口",
     更多代理节点...
]

def get_with_proxy(url):
    try:
        response = requests.get(
            url,
            proxies={"http": choice(proxies)},
            headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0)"},
            timeout=10
        )
        return response.text
    except Exception as e:
        print(f"请求异常: {str(e)}")
        return None

如果是Scrapy框架，在middlewares.py中添加：

class ProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = "http://账号:密码@ip:端口"
        request.headers['User-Agent'] = random.choice(USER_AGENTS)