使用python网络爬虫爬取新浪新闻（二）

阅读量：

在这我把我学习的视频说明下：
我是在网易云课堂中的Python网络爬虫实战学的，大家感兴趣的可以自己去看看。

在第一部分中，我们已经能够从一个网页中找到自己所需要的内容。那么接下来，我们要做的就是从一则新闻的内容中获得我们所需要的内容，包括标题、内容、时间、作者、来源和评论数。
那就开始吧！
在第一部分的介绍中，我介绍了通过BeautifulSoup4的套件来处理html文档的方法，然后通过该套件获取了在class为blk12中标签为里面的内容。其实取得新闻的标题、内容、时间、作者、来源，都是使用的该方法

还是直接看代码和截图吧，简介明了
这里我打开了一则新闻，通过开发者工具找到了文章标题所对应的html内容，这里我们发现这则新闻的标题放在class=”main-title”的标签中

因此我们就可以使用BeautifulSoup获取标题

复制代码

    import requests
    from bs4 import BeautifulSoup
    res = requests.get('http://news.sina.com.cn/c/nd/2017-12-24/doc-ifypyuva7657785.shtml')
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text,'html.parser')
    news = soup.select('.main-title')
    print(news[0].text)

结果如下：

因此内容、时间、作者、来源的获取就很简单了，和上面一样

复制代码

    articles = soup.select('.article p')
    for article in articles:
    print(article.text)

结果如下：

我们发现有一个小问题，那就是文章的编辑是直接放在文章内容的末尾的，那么我们可以在这样读取

复制代码

    articles = soup.select('.article p')
    for article in articles[:-1]:
    print(article.text)

看结果，没有了吧!

但是我们发现还有一个小问题，就是这些文字中间还有很多空格，那么我们可以这样做：

复制代码

    articles = soup.select('.article p')
    art = []
    for article in articles[:-1]:
    #将列表中每项的空白部分去掉，然后加入到新的列表中
    art.append(article.text.strip())
    #将新的列表中的每项以空格的形式结合在一起
    ' '.join(art)

结果如下，这就算完成了

接下来获取时间、作者、来源我就不解释了

复制代码

    editor = soup.select('.show_author')
    print(editor[0].text)
    #使用lstrip函数将"责任编辑："去除
    print(editor[0].text.lstrip('责任编辑：'))
    timesource = soup.select('.date')
    print(timesource[0].text)
    newssource = soup.select('.date-source a')
    print(newssource[0].text)

结果：

最后，解决获取评论数的问题：
我们先来看看评论数所在的位置：

我们发现这里面也有个1000，然后我们可能会想到直接使用之前的方法就行了。不过当然是不行了，不然我就不会单独说了，为什么不行了呢？
我们来看看如果使用之前的方法会怎么样：
我们发现里面的内容显示的是0，原因是评论数是通过json的方法粘贴上去的，因此我们就要去找这个js

然后我们使用开发者工具，打开Network，在js里面找到了这个，对比发现这就是我们要找的

因此我们就打开文件头，找到链接

接下来我们就可以通过该链接来获取评论数了，这里得用到一个新的套件json,通过使用json套件中的loads方法将已编码的 JSON 字符串解码为 Python 对象

从图片中我们可以发现返回的对象包裹着一层json标签

因此，我们可以使用strip方法将包裹的json标签去除，然后我们得到一个字典

通过之前这张图片

我们知道了评论数在字典里面的位置，所以我们就这样写

复制代码

    import json
    commentURL = 'http://comment5.news.sina.com.cn/page/info?version=1&format=json&channel=sh&newsid=comos-fypyuva7657785&group=undefined&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=3&t_size=3&h_size=3&thread=1&callback=jsonp_1514288035732&_=1514288035732'
    res = requests.get(commentURL)
    jd = json.loads(res.text.lstrip('jsonp_1514288035732(').rstrip(')'))
    jd['result']['count']['total']

看看结果吧：

大功告成，哈哈！！
先写这么多吧

全部评论 (0)

还没有任何评论哟~

使用python网络爬虫爬取新浪新闻（二）

在这我把我学习的视频说明下：我是在网易云课堂中的Python网络爬虫实战学的，大家感兴趣的可以自己去看看。在第一部分中，我们已经能够从一个网页中找到自己所需要的内容。那么接下来，我们要做的就是从一...

使用python网络爬虫爬取新浪新闻（一）

使用python网络爬虫爬取新浪新闻第一次写博客，感觉有点不太习惯！不知道怎么突然就想学学爬虫了，然后就用了一天的时间，跟着教程写了这个爬虫，！不说废话了，我将我从教程上学习的东西整个写下来吧，从头...

Python网络爬虫爬取新浪新闻

笔者最近由于需要研究互联网新闻，于是基于邱老师的网络爬虫实战，写了一个爬取新浪新闻的爬虫，爬取的信息有： 1.新闻标题 2.来源url 3.发布时间 4.正文 5.编辑者与邱老师的爬虫相比有以下几点...

网络爬虫——用Python爬取新浪新闻材料

微信公众号：数据分析与统计学习如有问题或建议，请公众号留言最近更新时间：201878 最近一个星期都在学习网络爬虫，秉着有学习输入就要有学习输出（学以致用）的原则，把整个学习过程记录下来，并分享给...

用网络爬虫爬取新浪新闻----Python网络爬虫实战学习笔记

今天学完了网易云课堂上Python网络爬虫实战的全部课程，特在此记录一下学习的过程中遇到的问题和学习收获。我们要爬取的网站是新浪新闻的国内版首页下面依次编写各个功能模块 1.得到某新闻页面下的评论...

python爬虫新浪新闻_python爬虫之获取新浪新闻信息

一：前言 windows平台： 1：谷歌的chrome浏览器；python3.6的软件安装包，需要导入的库有： [python]viewplain copy pipinstallrequests pi...

python爬虫：爬取新浪新闻数据

1\.爬虫的浏览器伪装原理：我们可以试试爬取新浪新闻首页,我们发现会返回403,因为对方服务器会对爬虫进行屏蔽。此时,我们需要伪装成浏览器才能爬取。 1.实战分析：浏览器伪装一般通过报头进行：打...

Python 爬虫爬取新浪新闻 BeautifulSoup+requests

最近在学习Python爬虫程序，工具是pycharm，Python3.6。因为我最终需要的是文本内容和文本标题所以实验以获取新浪新闻的文本和标题为例。实现过程中加载的模块包括以下：需要注意的是p...

python爬虫基础项目 -- 爬取新浪新闻

importrequests baseurl='https://search.sina.com.cn/?' headers= 'useragent':'Mozilla/5.0WindowsNT6.1;...

[python爬虫]使用Python爬取网易新闻

分两步： ①爬取网易新闻标题和链接 ②存入mysql中上代码！ coding:utf8 CreatedonThuApr0617:04:372017 5.@author:Administrator ...

是否确定退出登录?

使用python网络爬虫爬取新浪新闻（二）

全部评论 (0)

相关文章推荐

使用python网络爬虫爬取新浪新闻（二）

使用python网络爬虫爬取新浪新闻（一）

Python网络爬虫爬取新浪新闻

网络爬虫——用Python爬取新浪新闻材料

用网络爬虫爬取新浪新闻----Python网络爬虫实战学习笔记

python爬虫新浪新闻_python爬虫之获取新浪新闻信息

python爬虫：爬取新浪新闻数据

Python 爬虫爬取新浪新闻 BeautifulSoup+requests

python爬虫基础项目 -- 爬取新浪新闻

[python爬虫]使用Python爬取网易新闻