玩蛇网提供最新Python编程技术信息以及Python资源下载!
您现在的位置: 玩蛇网首页 > Python爬虫_Web网络爬虫_搜索引擎蜘蛛框架Spide > 正文内容

抓取网页所有url的简单Python爬虫源码

Python入门佳作 经典教程的全新修订 10个项目引人入胜
玩蛇网推荐图文教程:python黑客多线程扫描器

抓取网页所有url的简单Python爬虫源码,只用到了一个Python标准库urllib模块,没有用BeautifulSoup第三方库。python 多线程爬虫是一个很实用的工具。

简单Python爬虫源码发,如下:

import urllib

content = urllib.urlopen('http://www.iplaypython.com/').read()

s1=0
while s1>=0:
    begin = content.find(r'',m1)

    s1 = m2
    if(begin<=0):
        break
    elif(content[m1:m2].find(r" ")!=-1):
        m2 = content[m1:m2].find(r' ')
        url = content[m1+6:m1+m2-1]
        print url
    elif m2>=0:
        url = content[m1+6:m2-1]
        print url
print "end."

玩蛇网文章,转载请注明出处和来源网址:http://www.iplaypython.com/crawler/152.html



微信公众号搜索"玩蛇网Python之家"加关注,每日最新的Python资讯、图文视频教程可以让你一手全掌握。强烈推荐关注!

微信扫描下图可直接关注

玩蛇网PythonQQ群,欢迎加入: ① 240764603 玩蛇网Python新手群
出炉日期:2016-01-31 16:11 玩蛇网 www.iplaypython.com

我要分享到:
评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
  • wangm
    2016-05-26 19:39:22发表

    https://github.com/ShenJianShou/crawler_samples 爬虫源码

  • 天天向上
    2016-02-18 16:30:18发表

    贴出来的代码不全啊。再次申请视频教程的密码1049309119@qq.com谢谢站长

必知PYTHON教程 Must Know PYTHON Tutorials

必知PYTHON模块 Must Know PYTHON Modules