python爬虫-scrapy基于Spider类的全站数据爬取

阅读量：

通常情况下，在我们访问某些网站时

当我们使用scrapy框架处理多页数据时有两种方法

用于存储每一页对应的url到爬虫文件中的start_urls字段。然而，在网页数量较多的情况下（如果网页数量较多），start_urls字段中的列表规模会显著增大。

使用Request方法手动发起请求 （推荐使用）

调用Request对象向目标页面发送一次手动请求，并从古诗文网上获取每一页的诗歌标题。

复制代码

    import scrapy
    
    class GushiSpider(scrapy.Spider):
    name = 'gushi'
    start_urls = ['https://www.gushiwen.org/']
    
    pageNum = 2 #pageNum为2，第一页已经爬取过了 
    url = 'https://www.gushiwen.cn/default_%d.aspx' #每页的url是类似的
    
    def parse(self, response):
        div_list = response.xpath('//div[@class="sons"]/div[1]/p[1]')
        print(str(len(div_list))+"首古诗")
        for div in div_list:
            title = div.xpath('./a/b/text()').extract()
            print(title)
        print("------------------------")
    
        # 爬取所有页码数据    
        if self.pageNum <= 10: #一共爬取10页（共10页）
            self.pageNum += 1
            url = format(self.url % self.pageNum)   # 每一页的url和pageNum有关
    
        # 手动发起请求: scrapy.Request(url,callback,meta)
            ## url是需要发起请求的url,
            ## callback参数的值是回调函数，即发起请求后需要调用哪一个方法
            ## meta参数的值是一个 字典，表示的是向回调函数传递什么样的参数
    
        # 向上面格式化的url发起请求，callback递归调用parse()方法，将得到的数据继续进行解析
        yield scrapy.Request(url=url,callback=self.parse)

输出结果 ：

注意事项 * 第一条：由于 scrapy.Request() 在调用解析函数时会触发递归过程, 因此必须设置递归终止条件, 即 if self.pageNum <= 10:
第二条：为了识别不同页 url 的差异性, 必须使用 format() 方法生成 url 格式化字符串
第三条：在 scrapy.Request(url=url,callback=self.parse) 中, 当使用 callback 函数时, 必须传递给 callback 的参数中需要包含解析函数名称或实例

全部评论 (0)

还没有任何评论哟~

python爬虫-scrapy基于Spider类的全站数据爬取

很多时候，在我们爬取一些网站时，都会发现他们有多页的数据，通过观察能够发现，不同页的url之间有相似之处的，而且网页的url和对应的页码也是有关系的。所以之前我们会做一个循环，遍历所有页面中的数据当...

python爬虫-scrapy基于CrawlSpider类的全站数据爬取

文章目录一、CrawlSpider类介绍 1.1引入 1.2介绍和使用 1.2.1介绍 1.2.2使用二、案例：古诗文网全站数据爬取 2.1爬虫文件 2.2item文件 2.3管道文件 2.4配置...

scrapy之——基于Spider的全站数据爬取(分页的应用)

基于Spider的全站数据爬取：就是将网站中某板块下的全部页码对应的页面数据进行爬取实现方式：将要爬取的所有页面的URL添加到starturls列表（不推荐）自行手动进行请求发送 yields...

python爬虫-scrapy基于ImagesPipeline管道类的图片数据爬取

在scrapy中，有一个专门基于图片请求和持久化存储的ImagesPipeline管道类，当我们想要使用scrapy实现图片数据的爬取时，可以直接使用该管道类下面我们将要使用ImagesPipeli...

python爬取人口数据_Python爬虫：基于Scrapy的爬取失踪人口数据小爬虫

Scrapy简介： Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取更确切来说,网络抓取所设计的，...

scrapy的全网站爬取数据

在scrapy项目中，如需爬取多页数据，有以下几种方法：一、直接在starturls列表中加入需要爬取的url 二、找到下面后续的url规律，直接循环yieldscrapy.Request请求在p...

Python爬虫——使用Spider实现数据的爬取（一）

使用scrapy实现爬虫实例一、Scrapy安装使用命令：pipinstallscrapy 安装成功后验证是否成功，输入如下代码，执行： importscrapy printscrapy.vers...

Scrapy爬虫框架的基本使用创建spider工程和spider爬虫 scrapy基本命令

Srcapy介绍 Scrapy是一个健壮的爬虫框架，可以从网站中提取需要的数据。是一个快速、简单、并且可扩展的方法。 Scrapy使用了异步网络框架来处理网络通讯，可以获得较快的下载速度，因此，我们不...

Scrapy | 爬取笑话网来认识继承自Spider的crawlspider爬虫类

crawlspider 1\.创建crawlspider爬虫 2\.实战爬取笑话网笑话本篇内容旨在拓展视野和知识，了解crawlspider的使用即可，主要熟悉掌握spider类的使用 CrawlS...

爬虫日记(15)：scrapy的Spider

在一个scrapy的爬虫里，最重要的当然是蜘蛛（Spider）类，因为它不仅控制着爬虫向何处去，还要控制爬虫从网站上拿些什么数据下来。向何处去的问题，也就是爬虫要知道那些超级连接才有价值，那些不需要执...

是否确定退出登录?

python爬虫-scrapy基于Spider类的全站数据爬取

全部评论 (0)

相关文章推荐

python爬虫-scrapy基于Spider类的全站数据爬取

python爬虫-scrapy基于CrawlSpider类的全站数据爬取

scrapy之——基于Spider的全站数据爬取(分页的应用)

python爬虫-scrapy基于ImagesPipeline管道类的图片数据爬取

python爬取人口数据_Python爬虫：基于Scrapy的爬取失踪人口数据小爬虫

scrapy的全网站爬取数据

Python爬虫——使用Spider实现数据的爬取（一）

Scrapy爬虫框架的基本使用 创建spider工程和spider爬虫 scrapy基本命令

Scrapy | 爬取笑话网来认识继承自Spider的crawlspider爬虫类

爬虫日记(15)：scrapy的Spider

Scrapy爬虫框架的基本使用创建spider工程和spider爬虫 scrapy基本命令