scrapy 爬取京东商品列表

阅读量：

复制代码

 import scrapy

    
  
    
 class JdSpider(scrapy.Spider):
    
     #scrapy crawl name便是由这个name决定的
    
     name = 'jd'
    
  
    
     def start_requests(self):
    
     url = 'https://www.jd.com/'
    
  
    
     yield scrapy.Request(url=url,callback=self.parse)
    
  
    
     def parse(self,response):
    
     links = response.css('li.cate_menu_item a')
    
     for link in links:
    
         title = link.css('a::text').extract_first()
    
         href = link.css('a::attr("href")').extract_first()
    
         d = {
    
             'title':title,
    
             'href':href,
    
         }
    
         #哎，他大爷的，就因为一个缩进浪费了我半个小时。。。。
    
         yield d

然后jd.json文件中文为二进制编码，为了显示为中文，不用o输出而是采用管道形式，需作一下调整，：

1、修改settings.py文件，取消掉下列代码的注释

复制代码

 ITEM_PIPELINES = {

    
    'jdspider.pipelines.JdspiderPipeline': 300,
    
 }

2、修改pipelines.py文件

复制代码

 import json

    
  
    
 class JdspiderPipeline(object):
    
     def process_item(self, item, spider):
    
     with open('jd.json','a') as f:
    
         json.dump(dict(item),f,ensure_ascii=False)
    
         f.write('\n')
    
     return item

3、最后选择文件的显示为gbk模式，如下图所示结果：

复制代码

 {"title": "家用电器", "href": "//jiadian.jd.com"}

    
 {"title": "手机", "href": "//shouji.jd.com/"}
    
 {"title": "运营商", "href": "//wt.jd.com"}
    
 {"title": "数码", "href": "//shuma.jd.com/"}
    
 {"title": "电脑", "href": "//diannao.jd.com/"}
    
 {"title": "办公", "href": "//bg.jd.com"}

全部评论 (0)

还没有任何评论哟~

scrapy 爬取京东商品列表

importscrapy classJdSpiderscrapy.Spider: scrapycrawlname便是由这个name决定的 name='jd' defstartrequestsself:...

Scrapy框架爬取京东商品

这次抓取京东某类商品的信息，这里我选择了手机品类。使用scrapy爬虫框架，需要编写和设置的文件主要有phone.py,pipelines.py,items.py,settings.py,其中主要编...

python爬取京东商品代码_Python简单爬取京东商品列表

!/usr/bin/python3 coding:UTF8 importurllib.request importurllib.error importre importcsv importtime ...

使用python+selenium爬取京东商品列表

1、直接从JavaScript中采集加载的数据 importrequests importurllib.parse fromlxmlimportetree header= 'UserAgent':'M...

Python爬虫实战（2）：爬取京东商品列表

1，引言在上一篇《python爬虫实战：爬取Drupal论坛帖子列表》，爬取了一个用Drupal做的论坛，是静态页面，抓取比较容易，即使直接解析html源文件都可以抓取到需要的内容。相反，JavaS...

selenium爬取京东商品信息_Python爬虫系列(十三) 用selenium爬取京东商品

这篇文章，我们将通过selenium模拟用户使用浏览器的行为，爬取京东商品信息，还是先放上最终的效果图： 1、网页分析（1）初步分析原本博主打算写一个能够爬取所有商品信息的爬虫，可是在分析过程中发...

scrapy爬虫实战——爬取京东男装商品信息

一、scrapy爬虫实战项目要求——爬取京东男装商品信息 1.工具：使用scrapycrawl爬虫模板 2.内容：爬取商品名称、商家名称、评分、价格（对应每一种颜色和尺码，数量=1时的价格）、多张图片...

selenium爬取京东商品

文章目录 step1:导入必要的包 step2:模拟浏览器，打开京东首页 step3:跳转到指定商品页面 step4:捕获一个商品的信息 step5:捕获所有页面中所有商品的信息 step6:将爬取到...

爬取京东商品（js）

fromseleniumimportwebdriver importcsv importtime 1.接收要搜索的商品类型,打开商品搜索页面 pro=input请输入商品名称: driver=webd...

python爬取京东商品信息代码_爬取京东商品信息

利用BeautifulSoup+Requests爬取京东商品信息并保存在Excel中一、查看网页信息打开京东商城，随便输入个商品，就选固态硬盘吧先看看URL的规律，可以看到我们输入的关键词是在k...

是否确定退出登录?

scrapy 爬取京东商品列表

全部评论 (0)

相关文章推荐

scrapy 爬取京东商品列表

Scrapy框架爬取京东商品

python爬取京东商品代码_Python简单爬取京东商品列表

使用python+selenium爬取京东商品列表

Python爬虫实战（2）：爬取京东商品列表

selenium爬取京东商品信息_Python爬虫系列(十三) 用selenium爬取京东商品

scrapy爬虫实战——爬取京东男装商品信息

selenium爬取京东商品

爬取京东商品（js）

python爬取京东商品信息代码_爬取京东商品信息