Scrapy爬取京东图书信息

阅读量：

网页架构较为基础，在实际操作中需要注意以下几点：首先，在获取价格时应首先定位其对应的接口；其次，在传递item时需采用深度复制方式以防止数值复制带来的问题；最后，请确保所有数据传输过程中的安全性和一致性。以下为完整的Spider源文件内容：

复制代码

    # -*- coding: utf-8 -*-
    import scrapy
    from copy import deepcopy
    import json
    
    
    class JsbookSpider(scrapy.Spider):
    name = 'jdbook'
    allowed_domains = ['jd.com', 'p.3.cn']
    start_urls = ['https://book.jd.com/booksort.html']
    
    def parse(self, response):
        item = {}
        dt_list = response.xpath('//div[@id="booksort"]/div[2]/dl/dt')
        # 获取大分类
        for dt in dt_list:
            item['big_sort'] = dt.xpath('./a/text()').extract_first()
    
            # 获取小分类
            em_list = dt.xpath('./following-sibling::dd[1]/em')
            for em in em_list:
                item['small_sort'] = em.xpath('./a/text()').extract_first()
                item['small_sort_href'] = em.xpath('./a/@href').extract_first()
                if item['small_sort_href'] is not None:
                    item['small_sort_href'] = 'https:' + item['small_sort_href']
    
                yield scrapy.Request(
                    url=item['small_sort_href'],
                    callback=self.parse_book_page,
                    meta={'item': deepcopy(item)}
                )
    
    def parse_book_page(self, response):
        item = response.meta.get('item')
    
        # 获取图书详情
        li_list = response.xpath('//ul[@class="gl-warp clearfix"]/li')
        for li in li_list:
            # 书名
            item['book_name'] = li.xpath('./div/div[@class="p-name"]/a/em/text()').extract_first()
            if item['book_name'] is not None:
                item['book_name'] = item['book_name'].strip()
            # 图书详情页URL
            item['book_href'] = li.xpath('./div/div[@class="p-name"]/a/@href').extract_first()
            if item['book_href'] is not None:
                item['book_href'] = 'https:' + item['book_href']
            # 简介
            # item['promo_words'] = li.xpath('./div/div[@class="p-name"]/a/i/text()').extract_first()
            # 作者
            item['book_author'] = li.xpath('./div/div[@class="p-bookdetails"]/span/span/a/@title').extract_first()
    
            # 获取价格
            num = li.xpath('./div/@data-sku').extract_first()
            if num is not None:
                url = 'https://p.3.cn/prices/mgets?&skuIds=J_{}'.format(num)
    
                yield scrapy.Request(
                    url=url,
                    callback=self.get_book_price,
                    meta={'item': deepcopy(item)}
                )
    
        # 获取下一页数据
        next_url = response.xpath('//a[@class="pn-next"]/@href').extract_first()
        if next_url is not None:
            next_url = "http://list.jd.com" + next_url
            print('获取下一页')
    
            yield scrapy.Request(
                url=next_url,
                callback=self.parse_book_page,
                meta={'item': deepcopy(item)}
            )
    
    
    def get_book_price(self, response):
        item = response.meta.get('item')
        item['book_price'] = json.loads(response.text)[0]['op']
        # print(item)
    
        yield item
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-18/wRuCfpLzNWIajOUhKlo7D2xt9PAZ.png)

全部评论 (0)

还没有任何评论哟~

Scrapy爬取京东图书信息

网页结构比较简单，需要注意的是，获取价格需要找到它的接口，还需注意的是传递item的时候需要深拷贝，避免item的值重复，以下是spider文件 coding:utf8 importscrapy fr...

Scrapy 爬取京东所有图书信息

先记录代码吧，回头再写文字： coding:utf8 importscrapy importjson importpprint fromcopyimportdeepcopy classJdSpider...

使用scrapy-redis 爬取京东图书信息（案例）

前提环境：WIN10,pycharm,redis,scrapyredis 需求：抓取京东图书信息目标：使用ScrapyRedis抓取京东图书的信息，有图书的大类别（bcategory）、图书小类别的...

scrapy爬取京东所有图书

京东图书<https://book.jd.com/booksort.html 目标：爬取京东图书下面所有图书的详细信息爬取所有大分类下的所有小分类下的图书信息大分类的名字小分类的名字小分类的链...

python爬取京东书籍_一个scrapy框架的爬虫(爬取京东图书)

我们的这个爬虫设计来爬取京东图书jd.com。 scrapy框架相信大家比较了解了。里面有很多复杂的机制，超出本文的范围。 1、爬虫spider tips： 1、xpath的语法比较坑，但是你可以在c...

【京东】scrapy爬虫抓取京东图书详情、评论

1前期工作参考 scrapy爬取京东商城某一类商品的信息和评论（一） scrapy爬取京东商城某一类商品的信息和评论（二）测试 1.打开京东图书 2.在console中输入'ul.glwarpli...

scrapy-redis 构建分布式爬取京东书籍信息

scrapyredis构建分布式爬取京东书籍信息上次介绍了scrapyredis源码，这次实战一下。 setting.py配置主要启用scrapyredis的SCHEDULER，DUPEFILTE...

使用scrapy爬取京东商城中的书籍信息

爬取京东商城中所有的Python书籍的名字和价格信息 JDBookSpider代码如下： coding:utf8 importscrapy fromscrapyimportRequest fromsc...

Scrapy中使用Selenium进行网页爬取：京东图书书籍信息爬取项目实例

Scrapy中使用Selenium进行网页爬取：京东图书书籍信息爬取项目实例在本文中，我们将探讨如何在Scrapy框架中使用Selenium来爬取网页数据。我们将以一个实际的示例项目为基础，该项目旨...

【selenium爬虫】 selenium自动化爬取京东图书信息

ChromeDriverMirror 4、selenium一些基本操作定位元素： 1findelementbycssselector：根据css定位 2）findelementbyclassname...

是否确定退出登录?

Scrapy爬取京东图书信息

全部评论 (0)

相关文章推荐

Scrapy爬取京东图书信息

Scrapy 爬取京东所有图书信息

使用scrapy-redis 爬取京东图书信息 （案例）

scrapy爬取京东所有图书

python爬取京东书籍_一个scrapy框架的爬虫(爬取京东图书)

【京东】scrapy爬虫抓取京东图书详情、评论

scrapy-redis 构建分布式爬取京东书籍信息

使用scrapy爬取京东商城中的书籍信息

Scrapy中使用Selenium进行网页爬取：京东图书书籍信息爬取项目实例

【selenium爬虫】 selenium自动化爬取京东图书信息

使用scrapy-redis 爬取京东图书信息（案例）