web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

阅读量：

该系统采用自动化爬虫技术从百度新闻网站中提取实时更新的信息源，并精准抓取其首页的指定链接规则（如新闻rul地址）。

有很多网站，在浏览器访问时会显示一些信息；然而，在HTML源文件中却无法直接获取这些信息；这些信息通常会通过滚动区域滚动到相应位置后才显示出来；因此，这种现象通常是JavaScript的Ajax动态请求所导致的。

我们以百度新闻为列：

1、分析网站

首先我们浏览器打开百度新闻，在网页中间部分找一条新闻信息

然后对源码进行核查，在源文件中并未发现该条新闻的存在情况

我们需要进行数据包解析工作。在启动相关抓取工具之前，请确保已使用抓包浏览器完成初始设置。此时，在解析过程中我们注意到一条信息是基于Ajax动态构建的JSON格式数据。具体而言，在HTML页面完成加载后才会生成该数据结构。因此，在原始文件中此数据并未直接存在，并且常规方法也无法获取该数据

首先访问该JSON数据的官方网址，在浏览器中进行查看，并确认所需的数据是否完全包含在内。此次请求返回了17条相关信息，请注意所需的信息并未完全包含在内，并需继续探索其他JS包以获取完整的数据集。

我们将抓包浏览器的滚动条滑动至底部以引发所有JavaScript请求接着，在继续寻找JavaScript包的过程中我们最终检查了所有的JavaScript包并未发现任何与新闻信息相关的数据

那么该信息不再包含在js包中。我们转而查看其他类型的请求。此时我们发现许多get请求均响应所需的新闻资讯。这表明仅当第一次发起Ajax请求时才会返回包含JSON格式的数据。而后续的所有Ajax请求均返回以html形式呈现的字符串内容。

对于每次Ajax请求返回的结果而言，在JSON响应中获取URL地址与在HTML响应中获取内容之间是否存在某种规律进行比较分析。

我们能够观察到，在JSON信息中包含的网址与HTML属性所指定的字符串数据属于同一个请求地址的一部分

仅仅在请求时发送的不同参数即可限定处理方式；由此可见，在同一个请求地址上进行数据处理时，并不会因为传入的不同参数而产生不同的数据格式；相反地，则会根据不同的传入参数返回对应的数据格式。

复制代码

    http://news.baidu.com/widget?id=LocalNews&ajax=json&t=1501348444467   JSON数据的网址
    
    http://news.baidu.com/widget?id=civilnews&t=1501348728134        html类型的字符串数据网址
    
    http://news.baidu.com/widget?id=InternationalNews&t=1501348728196    html类型的字符串数据网址

为了实现将HTML类型的字符串数据URL与添加JSON数据URL参数的技术效果如何？

复制代码

    http://news.baidu.com/widget?id=civilnews&ajax=json        将html类型的字符串数据网址加上JSON数据的网址参数
    
    http://news.baidu.com/widget?id=InternationalNews&ajax=json    将html类型的字符串数据网址加上JSON数据的网址参数

这次就容易处理了。首先找出所有包含HTML类型的字符串数据地址；接着通过前面所述的方法将这些HTML 类型的数据转换为 JSON 格式的地址；最后再循环遍历这些转换后的JSON 格式地址就可以获取到所有的新闻链接了。

crapy实现

复制代码

    在学习过程中有什么不懂得可以加我的
    python学习交流扣扣qun，784758214
    群里有不错的学习视频教程、开发工具与电子书籍。
    与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容
    # -*- coding: utf-8 -*-
    import scrapy
    from scrapy.http import Request,FormRequest
    import re
    import json
    from adc.items import AdcItem
    from scrapy.selector import Selector
    
    class PachSpider(scrapy.Spider):                            #定义爬虫类，必须继承scrapy.Spider
    name = 'pach'                                           #设置爬虫名称
    allowed_domains = ['news.baidu.com']                    #爬取域名
    start_urls = ['http://news.baidu.com/widget?id=civilnews&ajax=json']
    
    qishiurl = [                    #的到所有页面id
        'InternationalNews',
        'FinanceNews',
        'EnterNews',
        'SportNews',
        'AutoNews',
        'HouseNews',
        'InternetNews',
        'InternetPlusNews',
        'TechNews',
        'EduNews',
        'GameNews',
        'DiscoveryNews',
        'HealthNews',
        'LadyNews',
        'SocialNews',
        'MilitaryNews',
        'PicWall'
    ]
    
    urllieb = []
    for i in range(0,len(qishiurl)):            #构造出所有idURL
        kaishi_url = 'http://news.baidu.com/widget?id=' + qishiurl[i] + '&ajax=json'
        urllieb.append(kaishi_url)
    # print(urllieb)
    
    def parse(self, response):                  #选项所有连接
        for j in range(0, len(self.urllieb)):
            a = '正在处理第%s个栏目:url地址是：%s' % (j, self.urllieb[j])
            yield scrapy.Request(url=self.urllieb[j], callback=self.enxt)     #每次循环到的url 添加爬虫
    
    def enxt(self, response):
        neir = response.body.decode("utf-8")
        pat2 = '"m_url":"(.*?)"'
        url = re.compile(pat2, re.S).findall(neir)      #通过正则获取爬取页面 的URL
        for k in range(0,len(url)):
            zf_url = url[k]
            url_zf = re.sub("\ \/", "/", zf_url)
            pduan = url_zf.find('http://')
            if pduan == 0:
                print(url_zf)                       #输出获取到的所有url

全部评论 (0)

还没有任何评论哟~

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

crapy爬取百度新闻，爬取Ajax动态生成的信息，抓取百度新闻首页的新闻rul地址有多网站，当你浏览器访问时看到的信息，在html源文件里却找不到，由得信息还是滚动条滚动到对应的位置后才显示信息，...

scrapy爬虫爬取新片场信息

coding:utf8 importscrapy importre fromscrapyimportRequest importjson defconverts: ifsisstrands.isdig...

web爬虫讲解—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies

模拟浏览器登录 startrequests方法，可以返回一个请求给爬虫的起始网站，这个返回的请求相当于starturls，startrequests返回的请求会替代starturls里的请求 Requ...

[Python爬虫]Scrapy框架爬取网易国内新闻

启动文件main.py fromscrapy.cmdlineimportexecute execute'scrapycrawlwangyi'.split 执行spider文件下的爬取文件 coding...

爬虫框架Scrapy（12）爬取动态页面

文章目录爬取动态页面（一）Splash渲染引擎 1\.render.html端点 2\.execute端点 3\.常用属性与方法（1）Splash对象的属性（2）Splash对象的方法（二）...

Scrapy爬虫框架抓取网易新闻

@scrapy 环境安装 Windows scrapy的安装需要5个依赖库，先安装好这5个依赖库，然后在dos命令中利用pipinstall安装scrapy框架即可，首先要确保python的目录是添加...

【python 爬虫】 scrapy 入门--爬取百度新闻排行榜

scrapy入门–爬取百度新闻排行榜环境要求：python2/3anaconda scrapy库开发环境：sublimetext+windowscmd 1.下载scrapy需要python支持 2...

scrapy框架爬虫定时爬取

使用crontab来执行scrapy定时爬取的需求。原因是在scrapy框架中，没有定时爬取的设置选项。 1\.什么是Crontab？ Crontab命令是Unix系统和类Unix系统中，用来设置周期...

初探Scrapy爬虫框架之百度网页爬取

初探Scrapy爬虫框架之百度网页爬取 scrapy框架及百度网页爬取与保存一、scrapy框架简介二、自己初使用的心得体会 1、爬虫之前明确目标 2、scrapy框架的简单使用流程 3、scra...

scrapy爬虫框架学习（二）scrapy爬取多级网页信息

scrapy爬虫框架学习（二）scrapy爬取多级网页信息 1爬取目标： 1.1针对一级页面获取专利详情页的链接信息 1.2针对专利详情页进行详细信息 2.项目代码实现 2.1item.py:定义要收...

是否确定退出登录?

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

全部评论 (0)

相关文章推荐

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

scrapy爬虫爬取新片场信息

web爬虫讲解—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies

[Python爬虫]Scrapy框架爬取网易国内新闻

爬虫框架Scrapy（12）爬取动态页面

Scrapy爬虫框架抓取网易新闻

【python 爬虫】 scrapy 入门--爬取百度新闻排行榜

scrapy框架爬虫定时爬取

初探Scrapy爬虫框架之百度网页爬取

scrapy爬虫框架学习（二）scrapy爬取多级网页信息