利用代理IP怎么实现一个Python爬虫
今天就跟大家聊聊有关利用代理IP怎么实现一个Python爬虫,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
获取 IP
代理池使用 Flask 提供了获取的接口:http://localhost:5555/random
只要访问这个接口再返回内容就可以拿到 IP 了
Urllib
先看一下 Urllib 的代理设置方法:
fromurllib.errorimportURLError importurllib.request fromurllib.requestimportProxyHandler,build_opener #获取IP ip_response=urllib.request.urlopen("http://localhost:5555/random") ip=ip_response.read().decode('utf-8') proxy_handler=ProxyHandler({ 'http':'http://'+ip, 'https':'https://'+ip }) opener=build_opener(proxy_handler) try: response=opener.open('http://httpbin.org/get') print(response.read().decode('utf-8')) exceptURLErrorase: print(e.reason)
运行结果:
{ "args":{}, "headers":{ "Accept-Encoding":"identity", "Host":"httpbin.org", "User-Agent":"Python-urllib/3.7" }, "origin":"108.61.201.231,108.61.201.231", "url":"https://httpbin.org/get" }
Urllib 使用 ProxyHandler 设置代理,参数是字典类型,键名为协议类型,键值是代理,代理前面需要加上协议,即 http 或 https,当请求的链接是 http 协议的时候,它会调用 http 代理,当请求的链接是 https 协议的时候,它会调用https代理,所以此处生效的代理是:http://108.61.201.231 和 https://108.61.201.231
ProxyHandler 对象创建之后,再利用 build_opener() 方法传入该对象来创建一个 Opener,这样就相当于此 Opener 已经设置好代理了,直接调用它的 open() 方法即可使用此代理访问链接
Requests
Requests 的代理设置只需要传入 proxies 参数:
importrequests #获取IP ip_response=requests.get("http://localhost:5555/random") ip=ip_response.text proxies={ 'http':'http://'+ip, 'https':'https://'+ip, } try: response=requests.get('http://httpbin.org/get',proxies=proxies) print(response.text) exceptrequests.exceptions.ConnectionErrorase: print('Error',e.args)
运行结果:
{ "args":{}, "headers":{ "Accept":"*/*", "Accept-Encoding":"gzip,deflate", "Host":"httpbin.org", "User-Agent":"python-requests/2.21.0" }, "origin":"47.90.28.54,47.90.28.54", "url":"https://httpbin.org/get" }
Requests 只需要构造代理字典然后通过 proxies 参数即可设置代理,比较简单
Selenium
importrequests fromseleniumimportwebdriver importtime #借助requests库获取IP ip_response=requests.get("http://localhost:5555/random") ip=ip_response.text chrome_options=webdriver.ChromeOptions() chrome_options.add_argument('--proxy-server=http://'+ip) browser=webdriver.Chrome(chrome_options=chrome_options) browser.get('http://httpbin.org/get') time.sleep(5)
运行结果:
看完上述内容,你们对利用代理IP怎么实现一个Python爬虫有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注恰卡编程网行业资讯频道,感谢大家的支持。
推荐阅读
-
Python中怎么动态声明变量赋值
这篇文章将为大家详细讲解有关Python中怎么动态声明变量赋值,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文...
-
python中变量的存储原理是什么
-
Python中怎么引用传递变量赋值
这篇文章将为大家详细讲解有关Python中怎么引用传递变量赋值,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文...
-
python中怎么获取程序执行文件路径
python中怎么获取程序执行文件路径,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的...
-
Python中如何获取文件系统的使用率
Python中如何获取文件系统的使用率,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴...
-
Python中怎么获取文件的创建和修改时间
这篇文章将为大家详细讲解有关Python中怎么获取文件的创建和修改时间,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读...
-
python中怎么获取依赖包
今天就跟大家聊聊有关python中怎么获取依赖包,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据...
-
python怎么实现批量文件加密功能
-
python中怎么实现threading线程同步
小编给大家分享一下python中怎么实现threading线程同步,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!...
-
python下thread模块创建线程的方法
本篇内容介绍了“python下thread模块创建线程的方法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来...