Advertisement

Scrapy爬取京东,天猫商品详情数据,整站商品实时商品数据

阅读量:

Scrapy爬虫数据入库

环境

  • python3.7
  • Scrapy==1.5.1
  • PyMySQL==0.9.3

启动命令

  • scrapy crawl goods_spider -a keyword=关键字 -a pagenum=爬取页数

数据项

  • 商品链接
  • 商品标题
  • 商品图片链接
  • 商品价格
  • 商品销量
  • 卖家地址

程序流程

启动命令接收两个参数并从淘宝网站获取所需的关键字商品信息;随后设计数据流管道用于将抓取的数据存储进MySQL数据库,并完成指定范围内的网页抓取任务

封装接口代码展示:

  • 请求方式:HTTPS POST GET
  • 公共参数:
名称 类型 必须 描述
key String 调用key(必须以GET方式拼接在URL中,请求示例地址
secret String 调用密钥 (复制v:Taobaoapi2014 )
api_name String API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]
cache String [yes,no]默认yes,将调用缓存的数据,速度比较快
result_type String [json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读
lang String [cn,en,ru]翻译语言,默认cn简体中文
version String API版本
  • 请求参数:

请求参数:num_iid=520813250866

参数说明:num_iid:淘宝商品ID

  • 请求代码示例,支持高并发请求(CURL、PHP 、PHPsdk 、Java 、C# 、Python...)
复制代码
 # coding:utf-8

    
 """
    
 Compatible for python2.x and python3.x
    
 requirement: pip install requests
    
 """
    
 from __future__ import print_function
    
 import requests
    
 # 请求示例 url 默认请求参数已经做URL编码
    
 url = "https://api-gw.taobaoapi2014.cn/taobao/item_get_app/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&num_iid=520813250866"
    
 headers = {
    
     "Accept-Encoding": "gzip",
    
     "Connection": "close"
    
 }
    
 if __name__ == "__main__":
    
     r = requests.get(url, headers=headers)
    
     json_obj = r.json()
    
     print(json_obj)
    
    
    
    
    代码解读
  • 响应示例

全部评论 (0)

还没有任何评论哟~