玩蛇网提供最新Python编程技术信息以及Python资源下载!

腾讯读书转TXT文件下载python代码

python 培训

这里是用腾讯读做为例子,将它的内容转TXT文件后下载的这样一个python代码。

需要用到python urllib2等方法模块。

import re, os, urllib2

url = 'http://book.qq.com/s/book/0/22/22707/'
page_re = re.escape(url) + r'\d+\.shtml'
data = urllib2.urlopen(url).read()
pages = re.findall(page_re, data)
count = 1

txt = []
for page in pages:
    html = urllib2.urlopen(page).read()
    print "downloading [%d/%d], %s" % (count, len(pages), page)
    m = re.findall(re.escape('<div id="content"') + '.*?' + re.escape('</div>'), html, re.DOTALL)
    if m:
        m = m[0]
    txt.append(m)
    count += 1

f=open('downqq.html', 'wb')#www.iplaypython.com
f.write("""<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
             "http://www.w3.org/TR/html4/loose.dtd"><html lang="en">
           <head><meta http-equiv="Content-Type" content="text/html;charset=GBK"><title></title></head><body>""")
f.write('\r\n\r\n\r\n'.join(txt))
f.write('</body></html>')
f.close()

print("DONE!")
os.system("downqq.html")

玩蛇网原创,转载请注明文章出处和来源网址:http://www.iplaypython.com/code/text-file/tf2635.html



微信公众号搜索"玩蛇网Python之家"加关注,每日最新的Python资讯、图文视频教程可以让你一手全掌握。强烈推荐关注!

微信扫描下图可直接关注

玩蛇网Python新手QQ群,欢迎加入: ① 240764603 玩蛇网Python新手群
文章发布日期:2016-03-31 20:45 玩蛇网 www.iplaypython.com

评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
相关文章推荐
别人正在看
特别推荐
去顶部去底部