爬虫案例：python爬取京东商品数据||京东商品详情SKU价格

阅读量：

网址：https://www.jd.com/

考虑到当前的淘宝网站防采集设置过于严格，在实际操作中依然存在诸多困难；因此，在京东平台上进行模拟浏览器的数据抓取练习是一个不错的选择。

1、爬取思路

（1）本次爬取的内容为京东商城（https://www.jd.com/）上手机商品信息，如下图：

检查

注意到该搜索框的ID字段为key。
进而首先需要清除元素默认设置下的搜索产品。
随后需将搜索功能应用于手机端模拟相应的操作步骤。
代码如下：

复制代码

    from selenium import webdriverdriver.find_element_by_id('key').clear()driver.find_element_by_id('key').send_keys('手机')

然后，还需要点击搜索，具体的位置如下：

识别按钮属性后，请编写以下代码 snippet 以便模拟按钮点击行为

复制代码

    driver.find_element_by_class_name('button').click()

(3)过去都是基于对不同页面URL规律的分析与研究来构造URL。然而，在模拟浏览器的行为中存在显著差异。通常位于网页内容区底部中部位置是翻页按钮。因此，在实际操作中应当找出其路径位置后，并以此为基础进行相应的翻页操作。

在开发者模式中的红色方框处进行选中操作，在右键点击后选择复制Xpath路径选项，在此操作下系统会自动定位到翻页操作的路径位置，并且可以通过以下代码片段实现对该功能的具体模拟操作：

复制代码

    driver.find_element_by_xpath('//*[@id="J_bottomPage"]').click()

本次将对手机价格及店铺名称进行初步提取，并用于模拟浏览器的数据获取过程；在此份中还包含的商品相关信息有这方面兴趣的用户可以根据自己的需求进行补充。

为了获取商品名称，请获取有效的商品链接，并访问其详情页面；以便进一步了解相关商品的信息。

2、爬取代码

复制代码

    from selenium import webdriverfrom lxml import etreeimport timedriver=webdriver.Chrome()driver.maximize_window()def get_info(url,page):   page = page + 1   driver.get(url)   driver.implicitly_wait(10)   selector=etree.HTML(driver.page_source)   infos = selector.xpath('//*[@id="J_goodsList"]/ul')   for info in infos:       price = info.xpath('li/div/div[3]/strong/i/text()')       print(price)       shop = info.xpath('li/div/div[7]/span/a/text()')       print(shop)   if page <= 5:       NextPage(url, page)   else:       pass   def NextPage(url, page):   driver.get(url)   driver.implicitly_wait(10)   driver.find_element_by_xpath('//*[@id="J_bottomPage"]').click()   time.sleep(10)   driver.get(driver.current_url)   driver.implicitly_wait(10)   get_info(driver.current_url, page)if __name__=='__main__':   page=1   url='https://www.jd.com/'   driver.get(url)   driver.implicitly_wait(10)   driver.find_element_by_id('key').clear()   driver.find_element_by_id('key').send_keys('手机')   driver.find_element_by_class_name('button').click()   time.sleep(3)   get_info(driver.current_url, page)

备注：通常情况下，在使用网络爬虫时会经常遇到类似的问题，并且必须先下载与当前系统兼容的浏览器驱动程序才能实现这一目标。

运行结果如下：

全部评论 (0)

还没有任何评论哟~

爬虫案例：python爬取京东商品数据||京东商品详情SKU价格

网址：https://www.jd.com/ 基于当下的淘宝网站反扒机制太严格，即使通过模拟浏览来获取，依旧比较难，因此选择京东这个平台来练习一下通过模拟浏览器来进行数据获取。

Python 爬虫爬取京东商品信息 ||京东商品详情API

Python爬虫爬取京东商品信息下面我将逐一解释每一部分的代码导入库 from selenium import webdriver from selenium.webdriver.edge.ser...

python爬取京东商品价格教科书中文版_Python爬虫，京东商品详情爬取！

最近因需求需要，需要到京东爬取一些类别的商品信息。记录下过程中踩过的坑，最后奉献上全部代码。仅供互相学习，如有错误请指正京东网页翻页。京东的页面是打开时先加载前30个商品，浏览到下面时再加载另30个...

python 京东价格_python 京东商品价格爬虫示例

这篇文章主要为大家详细介绍了python京东商品价格爬虫示例，具有一定的参考价值，可以用来参考一下。对python这个高级语言感兴趣的小伙伴，下面一起跟随512笔记的小编两巴掌来看看吧！闲着没事尝...

python爬虫爬取京东商品评价_京东商品评论爬取实战

先说说为什么写这个小demo吧，说起来还真的算不上“项目”，之前有一个朋友面试，别人出了这么一道机试题，需求大概是这样紫滴：1.给定任意京东商品链接，将该商品评论信息拿下，存入csv或者数据库 2.要...

python爬虫爬取京东商品评价_python爬取京东商品信息及评论

''' 爬取京东商品信息: 功能:通过chromeDrive进行模拟访问需要爬取的京东商品详情页https://item.jd.com/100003196609.html并且程序支持多个页面爬取，输入...

Python爬虫（一）京东商品价格及详情页抓取

这是一个以<http://item.jd.com/2957726.html为例的单页抓取案例 importurllib.request;载入urllib.request,用于获取页面html源代码 f...

python爬虫-京东商品爬取

京东商品爬取仅供学习一.使用selenium fromseleniumimportwebdriver fromselenium.webdriver.common.keysimportKeys键盘按...

爬取京东商品及价格

京东商品及价格存入csv文本，只有静态的30个逐页爬，动态的s=30,87,141,206,n=2,4,6,8。可以再下面在写个函数直接存到文本里，就是这个参数：把图片往右拖，network，里的...

api demo 京东商品详情_爬取京东商品详情页信息

之前写过爬取京东商品导航信息，现在献上爬取京东商品详情页信息。爬取京东商品详情页信息 2017/7/30 importrequests frombs4importBeautifulSoup impo...

是否确定退出登录?

爬虫案例：python爬取京东商品数据||京东商品详情SKU价格

1、爬取思路

2、爬取代码

全部评论 (0)

相关文章推荐

爬虫案例：python爬取京东商品数据||京东商品详情SKU价格

Python 爬虫爬取京东商品信息 ||京东商品详情API

python爬取京东商品价格教科书中文版_Python爬虫，京东商品详情爬取！

python 京东 价格_python 京东商品价格爬虫示例

python爬虫爬取京东商品评价_京东商品评论爬取实战

python爬虫爬取京东商品评价_python爬取京东商品信息及评论

Python爬虫（一）京东商品价格及详情页抓取

python爬虫-京东商品爬取

爬取京东商品及价格

api demo 京东商品详情_爬取京东商品详情页信息

python 京东价格_python 京东商品价格爬虫示例