Scrapy爬取京东,天猫商品详情数据,整站商品实时商品数据
发布时间
阅读量:
阅读量
Scrapy爬虫数据入库
环境
- python3.7
- Scrapy==1.5.1
- PyMySQL==0.9.3
启动命令
- scrapy crawl goods_spider -a keyword=关键字 -a pagenum=爬取页数
数据项
- 商品链接
- 商品标题
- 商品图片链接
- 商品价格
- 商品销量
- 卖家地址
程序流程
启动命令接收两个参数并从淘宝网站获取所需的关键字商品信息;随后设计数据流管道用于将抓取的数据存储进MySQL数据库,并完成指定范围内的网页抓取任务
封装接口代码展示:
- 请求方式:HTTPS POST GET
- 公共参数:
| 名称 | 类型 | 必须 | 描述 |
|---|---|---|---|
| key | String | 是 | 调用key(必须以GET方式拼接在URL中,请求示例地址) |
| secret | String | 是 | 调用密钥 (复制v:Taobaoapi2014 ) |
| api_name | String | 是 | API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等] |
| cache | String | 否 | [yes,no]默认yes,将调用缓存的数据,速度比较快 |
| result_type | String | 否 | [json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读 |
| lang | String | 否 | [cn,en,ru]翻译语言,默认cn简体中文 |
| version | String | 否 | API版本 |
- 请求参数:
请求参数:num_iid=520813250866
参数说明:num_iid:淘宝商品ID
- 请求代码示例,支持高并发请求(CURL、PHP 、PHPsdk 、Java 、C# 、Python...)
# coding:utf-8
"""
Compatible for python2.x and python3.x
requirement: pip install requests
"""
from __future__ import print_function
import requests
# 请求示例 url 默认请求参数已经做URL编码
url = "https://api-gw.taobaoapi2014.cn/taobao/item_get_app/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&num_iid=520813250866"
headers = {
"Accept-Encoding": "gzip",
"Connection": "close"
}
if __name__ == "__main__":
r = requests.get(url, headers=headers)
json_obj = r.json()
print(json_obj)
代码解读
- 响应示例

全部评论 (0)
还没有任何评论哟~
