Advertisement

Python爬虫实战之爬取京东商品数据并实实现数据可视化

阅读量:

文章目录

技术储备

工具包

兼职途径

技术储备

工具包

面试资料

兼职途径


一、开发工具

Python版本:3.6.4

相关模块:

DecryptLogin模块;

argparse模块;

以及一些python自带的模块。

二、环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

三、原理简介

其基本原理较为简单。为了实现这一目标,我们决定基于已有的开源项目DecryptLogin库开发一个针对微博账户进行模拟登录的功能模块。

复制代码
    '''模拟登录京东'''
    @staticmethod
    def login():
    lg = login.Login()
    infos\_return, session = lg.jingdong()
    return session

接着编写一段简短的代码来记录一下登录后的会话内容吧?避免每次都必须先模拟登录京东的过程。

复制代码
    if os.path.isfile('session.pkl'):
    print('\[INFO\]: 检测到已有会话文件session.pkl, 将直接导入该文件...')
    self.session = pickle.load(open('session.pkl', 'rb'))
    self.session.headers.update({'Referer': ''})
    else:
    self.session = JDGoodsCrawler.login()
    f = open('session.pkl', 'wb')
    pickle.dump(self.session, f)
    f.close()

接着去京东抓一波包,一样的套路,有种屡试不爽的感觉:

图片

看看请求这个接口需要提交的参数:

图片

我们可以简单分析一下每个参数的含义:

复制代码
    area: 不用管,可以看作一个固定值
    enc: 指定编码, 可以看作固定值"utf-8"
    keyword: 搜索的关键词
    adType: 不用管,可以看作一个固定值
    page: 当前的页码
    ad\_ids: 不用管,可以看作一个固定值
    xtest: 不用管,可以看作一个固定值
    \_: 时间戳

也就是说我们需要提交的params的内容大概是这样子的:

复制代码
    params = {
            'area': '15',
            'enc': 'utf-8',
            'keyword': goods\_name,
            'adType': '7',
            'page': str(page\_count),
            'ad\_ids': '291:19',
            'xtest': 'new\_search',
            '\_': str(int(time.time()\*1000))
        }

搭建好所有必要的参数配置后,在完成参数配置后,请直接通过登录后的会话中请求获取的数据包中的接口:

复制代码
    response = self.session.get(search\_url, params=params)

然后从返回的数据里解析并提取我们需要的数据就可以啦:

复制代码
    response\_json = response.json()
    all\_items = response\_json.get('291', \[\])
    for item in all\_items:
    goods\_infos\_dict.update({len(goods\_infos\_dict)+1: 
                                {
                                    'image\_url': item.get('image\_url', ''),
                                    'price': item.get('pc\_price', ''),
                                    'shop\_name': item.get('shop\_link', {}).get('shop\_name', ''),
                                    'num\_comments': item.get('comment\_num', ''),
                                    'link\_url': item.get('link\_url', ''),
                                    'color': item.get('color', ''),
                                    'title': item.get('ad\_title', ''),
                                    'self\_run': item.get('self\_run', ''),
                                    'good\_rate': item.get('good\_rate', '')
                                }
                            })

注:爬虫部分代码仅提供思路,网站在不断更新。

四、数据可视化

传统做法是做一个数据可视化展示吧?我们可以使用爬取到的无人机商品数据作为案例来进行分析。首先分析一下京东里销售无人机时的商品店铺类型比例情况。

图片

怎么发现非自营店铺的比例这么大呀?原本以为京东基本上都是自营店呢,尽管我自己很少用京东。这也太大的误会了吧

接着查看一下京东商品排名前十商家的商品评论数量情况吧:

图片

对比一下评论最多的店铺:

图片

似乎评论数量与商品排名之间也没有明显的关联性吧?完全没有重复的情况发生。

再来看看无人机相关商品的价格分布呗:

图片

关于Python技术储备

掌握Python技能无论是在求职还是从事自由职业方面都能带来不错的收益。但是仅仅掌握Python还不够;还需要制定科学的学习计划。最后为大家整理了一份完整的Python学习资料,并希望能为那些渴望提升自我、学习Python的朋友们提供一些实用的帮助。

保存图片微信扫描 下方官方认证二维码免费领取【保证100%免费

一、Python所有方向的学习路线

对Python各个方向的技术要点进行系统整理,并构建各领域知识点的系统性汇总。其主要作用体现在通过这些知识点可以方便地查找相关学习资源,并且能够帮助学习者全面掌握所需知识内容。

在这里插入图片描述
二、Python基础学习视频

② 路线对应学习视频

还有许多合适的零基础学习视频资源,在掌握了这些教程后,并不会觉得学习Python有难度

在这里插入图片描述

③练习题

每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!

在这里插入图片描述

因篇幅有限,仅展示部分资料

三、精品Python学习书籍

当我在积累了一定的知识基础,并具备了一定的理解能力后,会倾向于翻阅前辈们整理的书籍以及自己的手写笔记。这些笔记系统地记录了他们对若干技术要点的独特见解,并具有独特价值。通过这些记录,我可以从而获得不同的思维方式。

在这里插入图片描述
四、Python工具包+项目源码合集
①Python工具包

掌握Python主流的开发工具都在这里了!每一个工具都提供完整的安装指南,确保你可以顺利完成安装过程。

在这里插入图片描述
②Python实战案例

光学理论缺乏实用性,在学习过程中需要通过实践操作编程技能才能将所学知识转化为实际应用能力。通过参与实战案例练习能够加深理解,并丰富多样的实战源码库让你自由探索掌握最新技术动态!

在这里插入图片描述
③Python小游戏源码

如果觉得上面的实战案例有些单调的话 不妨试着自己用Python开发一个小型游戏 在学习过程中增加一些乐趣

在这里插入图片描述
五、面试资料

学习Python的目的必然是为了获取高薪工作机会。这些面试题是由阿里、腾讯、字节等一线互联网公司提供的最新面试资料,并获得了来自阿里zone的大佬们的权威解答。完成这一套精心准备的面试资料后,相信每一位学习者都能获得理想中的工作机会。

在这里插入图片描述
在这里插入图片描述
六、Python兼职渠道

而且掌握了Python之后,在众多兼职平台承接赚钱机会。这些内容包括各类兼职渠道、注意事项以及与客户的沟通技巧,并归纳为文档。

在这里插入图片描述
在这里插入图片描述

保证100%免费

保证100%免费

这份Python全版本的学习资料已完成平台发布。
对于有需求的朋友来说,
他们可以通过微信扫描下方认证二维码享受零 cost 的学习资源下载体验。

全部评论 (0)

还没有任何评论哟~