python代理ip使用方法：代码集成轻松爬数据

一、为什么Python爬数据必须用代理ip？

咱们程序员在用Python爬数据时，经常遇到网页突然打不开、返回403错误的情况。这其实是网站的反爬机制在起作用——当同一个IP频繁访问时，服务器就会把咱们的IP关进小黑屋。

上周有个做电商的朋友找我吐槽，他们用Python抓取商品价格时，刚跑半小时IP就被封了。这时候代理IP就是救命稻草，通过切换不同ip地址，让网站以为是多个用户在正常访问。

二、神龙IP为什么适合Python爬虫？

市面上的代理服务很多，但很多新手容易踩坑。我用过神龙IP主要是看中他们的SOCKS5协议支持，比普通http代理更隐蔽。他们的动态ip池每天更新300万+地址，特别适合需要高频切换的场景。

最省心的是他们提供Windows客户端，不用在代码里写死代理地址。软件能自动切换ip，还能设置每5分钟换一次。有次我连续跑了12小时爬虫，通过软件自动更换了144个IP，目标网站全程没触发验证。

三、Python设置代理ip的3种方法

1. Requests库设置代理

这是最常用的方法，在发送请求时直接添加proxies参数。注意神龙IP的认证方式是用户名密码双验证，代码要这样写：

import requests

proxies = {
    'http': 'socks5://用户名:密码@proxy.shenlongip.com:端口',
    'https': 'socks5://用户名:密码@proxy.shenlongip.com:端口'
}

response = requests.get('目标网址', proxies=proxies)

2. Urllib库设置代理

老项目可能会用这个库，需要先创建代理处理器。重点是要设置双重认证：

from urllib.request import ProxyHandler, build_opener

proxy = ProxyHandler({
    'http': 'socks5://用户名:密码@proxy.shenlongip.com:端口',
    'https': 'socks5://用户名:密码@proxy.shenlongip.com:端口'
})
opener = build_opener(proxy)
response = opener.open('目标网址')

3. Selenium浏览器代理

需要模拟人工操作时，可以给浏览器挂代理。以Chrome为例，通过add_argument方法加载代理：

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=socks5://用户名:密码@proxy.shenlongip.com:端口')

driver = webdriver.Chrome(options=chrome_options)
driver.get('目标网址')

四、实战案例：电商价格监控

帮朋友做的价格监控系统，核心代码如下。关键点在于随机休眠+代理切换的组合拳：

import time
import random
from selenium.webdriver import ChromeOptions

def get_price(url):
     每次请求前更换代理
    options = ChromeOptions()
    options.add_argument(f'--proxy-server=socks5://{get_random_proxy()}')
    
    driver = webdriver.Chrome(options=options)
    driver.get(url)
    
     模拟人工操作
    time.sleep(random.uniform(1,3))
    price = driver.find_element(...)
    
    driver.quit()
    return price

def get_random_proxy():
     调用神龙IP的API获取新代理
    return f'用户名:密码@代理服务器:端口'