玩蛇网提供最新Python编程技术信息以及Python资源下载!
您现在的位置: 玩蛇网首页 > Python爬虫_Web网络爬虫_搜索引擎蜘蛛框架Spide > 正文内容

自动抓取163新闻的Python爬虫源码

Python入门佳作 经典教程的全新修订 10个项目引人入胜
玩蛇网推荐图文教程:python黑客多线程扫描器

Python爬虫的学习,自动抓取163新闻的Python爬虫源码,这是一个用Python语言编写的,自动抓取网易新闻的python爬虫实现方法一文。

Python爬虫的抓取思路是:
(1)通过分析目标新闻网址 ,分析其中以News.xxx.com 开头的链接
(2)获取每一个链接的内容,并做整理合并到事前准备好的.txt 文本中,以便查看各新闻。
但是需要注意的是:由于今天的测试对象,网易新闻的格式不是非常统一,所有会有部分漏掉的情况,还能大家见谅。也希望有能力的朋友们帮着改进一下。

Python 折取新闻方法

自动抓取163新闻的Python爬虫源码如下:

#coding:utf-8

import re, urllib

strTitle = ""
strTxtTmp = ""
strTxtOK = ""

f = open("163News.txt", "w+")

m = re.findall(r"news\.163\.com/\d.+?<\/a>",urllib.urlopen("http://www.163.com").read(),re.M)

#www.iplaypython.com

for i in m:
    testUrl = i.split('"')[0]
    if testUrl[-4:-1]=="htm":

    
        strTitle = strTitle + "\n" + i.split('"')[0] + i.split('"')[1]  # 合并标题头内容

        okUrl = i.split('"')[0] # 重新组合链接
        UrlNews = ''
        UrlNews = "http://" + okUrl
        
        print UrlNews

"""
查找分析链接里面的正文内容,但是由于 163 新闻的格式不是非常统一,所以只能说大部分可以。
整理去掉部分 html 代码,让文本更易于观看。
"""
        n = re.findall(r"<P style=.TEXT-INDENT: 2em.>(.*?)<\/P>",urllib.urlopen(UrlNews).read(),re.M)
        for j in n:
            if len(j)<>0:
                j = j.replace("&nbsp","\n")
                j = j.replace("<STRONG>","\n_____")
                j = j.replace("</STRONG>","_____\n")
                strTxtTmp = strTxtTmp + j + "\n"
                strTxtTmp = re.sub(r"<a href=(.*?)>", r"", strTxtTmp)
                strTxtTmp = re.sub(r"<\/[Aa]>", r"", strTxtTmp)
    
        strTxtOK = strTxtOK + "\n\n\n===============" +
        i.split('"')[0] + i.split('"')[1] + "===============\n" + strTxtTmp


        strTxtTmp = "" # 组合链接标题和正文内容
        print strTxtOK


f.write(strTitle + "\n\n\n" + strTxtOK)# 全部分析完成后,写入文件
f.close()#关闭文件

文章代码实效性有限,还请适当做修改后再使用。

其它Python爬虫相关文章推荐:
1、一个用Python编写抓取天气预报的代码示例
2、Python urllib2爬虫爬取图片下载代码分享
3、抓取网页所有url的简单Python爬虫源码

玩蛇网文章,转载请注明出处和来源网址:http://www.iplaypython.com/crawler/2579.html



微信公众号搜索"玩蛇网Python之家"加关注,每日最新的Python资讯、图文视频教程可以让你一手全掌握。强烈推荐关注!

微信扫描下图可直接关注

玩蛇网PythonQQ群,欢迎加入: ① 240764603 玩蛇网Python新手群
出炉日期:2016-01-11 20:23 玩蛇网 www.iplaypython.com

我要分享到:
评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
  • wangm
    2016-05-26 19:53:40发表

    分享github上的一些爬虫源码:https://github.com/ShenJianShou/crawler_samples

必知PYTHON教程 Must Know PYTHON Tutorials

必知PYTHON模块 Must Know PYTHON Modules