玩蛇网提供最新Python编程技术信息以及Python资源下载!
您现在的位置: 玩蛇网首页 > Python模块库 > 正文内容

Python必知模块库

Python urllib2模块post/get 下载网络资源

Python基础教程(第2版 修订版)
玩蛇网推荐图文教程:python黑客多线程扫描器

urllib2是非常强大的Python网络资源访问模块,它的功能和玩蛇网前面讲过的urllib模块非常相似。

模块目录
  1. urllib2模块简介
  2. urllib2模块函数讲解
  3. urllib2模块源码演示
  4. urllib2模块注意事项

一、urllib2模块简介

Python标准库中的urllib2模块可以说是urllib模块的一个升级的复杂版,不需要另外下载,它的函数可以处理更多复杂的情况,比如访问的网络资源需要Http验证,需要cookie信息,模仿普通浏览器一样去访问网络、网页资源,这个时候urllib2就派上用场了。

二、urllib2模块函数方法

1 )、设置timeout超时设置:

>>> import urllib2 #导入urllib2模块
>>> test = urllib2.urlopen(‘http://www.iplaypython.com/’, timeout=15)
>>> # 2个参数,一个是url网址,另一个是超级的时候,这次测试设置值为15。

2 )、在访问的时候加入Header头部信息

>>> header = {“User-Agent”: “Mozilla-Firefox24.0”} #dict字典类型
>>> urllib2.urlopen(url, header)
向上面这样的操作,就可以加上Header头部信息,用来模仿浏览器行为,应对一些禁止爬虫的网络资源,非常适用。

3 )、用urllib2得到http网页状态码

>>> import urllib2
>>> test = urllib2.urlopen(‘http://www.baidu.com/’)
>>> test.code

就这么简单,就访问了百度的网页状态码,200证明访问得能,得到了网页内容。

4 )、使用urllib2对Cookie进行处理

>>> import urllib2
>>> import cookielib
>>>
>>> cookie =cookielib.CookieJar() # 后面函数方法要注意C和J是大写的。
>>> opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
>>> response = opener.open(‘http://www.baidu.com’)

>>> for item in cookie:
>>>    if item.name == "some_cookie_item_name”
>>>         print item.value

三 、urllib2模块源码演示

源码,待续。

四 、urllib2模块注意事项

URLLIB2模块还有很多功能和方法这里没有做介绍,如Proxy代理设置可以访问一些有限制的数据,如搜索引擎的数据,重定向url网址的处理,Debug日志的记录设置等,大家有时间可以去看一下官方的文档,或者用dir()和help()方法,查看一下模块的方法和说明。

玩蛇网文章,转载请注明出处和来源网址:http://www.iplaypython.com/module/urllib2.html



微信公众号搜索"玩蛇网Python之家"加关注,每日最新的Python资讯、图文视频教程可以让你一手全掌握。强烈推荐关注!

微信扫描下图可直接关注

玩蛇网PythonQQ群,欢迎加入: ① 240764603 玩蛇网Python新手群
出炉日期:2016-12-03 20:11 玩蛇网 www.iplaypython.com

我要分享到:    
评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)

必知PYTHON教程Must Know PYTHON Tutorials