python爬虫使用代理ip示例：代码片段和常见问题解决

手把手教你用Python爬虫搭配代理ip实战

咱们做网络数据采集的同行都知道，代理IP就像给爬虫穿上的隐身衣。今天我就拿市面上常见的神龙IP服务为例，给大伙演示几个真实可用的代码案例，顺带说说实际操作中容易踩的坑。

为什么你的爬虫需要穿"隐身衣"？

举个常见场景：当你在某网站连续发起10次请求后，突然发现返回的都是验证码页面——这就是典型的IP被限制访问了。用上动态代理ip后，相当于每次请求都换不同的"身份证"，网站系统就认不出你是同一个人了。

这里要夸下神龙IP的混合协议支持，他们的服务同时兼容SOCKS5和HTTP协议，这对需要处理不同类型请求的爬虫项目特别友好。比如爬某些金融数据网站时，SOCKS5协议在传输速度上确实更胜一筹。

Python爬虫接入代理的两种姿势

咱们先看最常用的requests库写法：

import requests

proxies = {
    'http': 'http://用户名:密码@ip.神龙代理域名:端口',
    'https': 'http://用户名:密码@ip.神龙代理域名:端口'
}

response = requests.get('目标网址', proxies=proxies, timeout=10)

注意这里要同时配置http和https两个协议，很多新手只填一个会导致部分请求失败。神龙IP的代理地址支持智能协议识别，遇到HTTPS请求会自动切换加密通道。

再来看urllib的实现方式：

from urllib.request import ProxyHandler, build_opener

proxy = ProxyHandler({
    'http': 'http://用户名:密码@ip.神龙代理域名:端口',
    'https': 'http://用户名:密码@ip.神龙代理域名:端口'
})
opener = build_opener(proxy)
print(opener.open('目标网址').read())

新手必看的六个实战问题

问题现象	排查方法	解决方案
代理连接超时	检查网络防火墙设置	切换神龙IP提供的其他端口号
返回407认证错误	核对账号密码格式	使用URL编码后的特殊字符
部分网页加载不全	检查请求头设置	添加User-Agent等必要头信息