玩蛇网提供最新Python编程技术信息以及Python资源下载!

初学者用python爬凡客图片的源码

python 培训

python学习最大的动力就是能写出一些可以运行的代码。感觉python真是的很强大。

下边的这部分python代码是我用来爬凡客T的图片,代码是初学阶段写的,比较简陋,没做修改,之前是可以用的。翻出来给同样初学python的同学们一起学习下。

初学者用python爬凡客图片的源码中,用到了python 正则表达式来匹配目标。我清楚的记得正则是我学习python最痛苦的阶段,懊恼~

python 蜘蛛应用源码示例

#导入代码中需要用到的方法库
import os
import sys
import re
import urllib

#------www.iplaypython.com---下面正式开始代码部分喽-----

VANCAL_ITEM = re.compile(r'http://vt.vancl.com/item/(\d+).*', re.I)
ITEM_PIC = re.compile(r'(http://images.vancl.com/product/.*?/small/.*?\.jpg)', re.I)

def download(dir, url):

	global VANCAL_ITEM, ITEM_PIC
	
	if not os.path.isdir(dir):
		os.mkdir(dir)
	
	html = urllib.urlopen(url).read()
	items = [item for item in VANCAL_ITEM.findall(html)]
	for idx, item in enumerate(items):
		item_url = 'http://vt.vancl.com/item/' + item + '.html'
		print idx, ": ", item_url

		dl_dir = dir + item + '\\'
		try:
			os.makedirs(dl_dir)
		except:
			pass
		item_html = urllib.urlopen(item_url).read()
		item_pics = [item for item in ITEM_PIC.findall(item_html)]
		for sidx, sitem in enumerate(item_pics):
			tmp = sitem.replace("small", "mid")
			name = tmp.split('/')[-1]
			dl_name = os.path.join(dl_dir, name)
			urllib.urlretrieve(tmp, dl_name)
	return
	
def main():
	dir = 'd:\\img\\'
	ss = 'http://vt.vancl.com/list/women/'
	ed = '/view=1'
	for idx in range(10):
		download(dir, ss + str(idx + 1) + ed)
		
if __name__ == '__main__':
	main()

玩蛇网原创,转载请注明文章出处和来源网址:http://www.iplaypython.com/code/other/o2463.html



微信公众号搜索"玩蛇网Python之家"加关注,每日最新的Python资讯、图文视频教程可以让你一手全掌握。强烈推荐关注!

微信扫描下图可直接关注

玩蛇网Python新手QQ群,欢迎加入: ① 240764603 玩蛇网Python新手群
文章发布日期:2016-04-08 10:52 玩蛇网 www.iplaypython.com

评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
相关文章推荐
别人正在看
特别推荐
去顶部去底部