Python 使用requests-html 进行爬虫

阅读量：

介绍：

Requsts库，里面是一个用来模拟发送HTTP请求的第三方Python 库。常用来做爬虫或接口测试，相对于urllib 等系统库，requests具有简洁方便和高效等特点。
而Requests-HTML 对PyQuery、Requests、lxml、beautifulsoup4等库进行了二次封装，添加了解析 HTML 的接口，是一个 Python 的 HTML 解析库。

GiHub项目地址：
https://github.com/kennethreitz/requests-html
中文文档：
https://cncert.github.io/requests-html-doc-cn/#/

学习

预备知识

Python 基础，了解第三方库的安装与导入，基础代码逻辑
HTML 基础，了解前端网页各标签及其含义

安装

复制代码

    	pip install requests-html

元素定位

对美桌网进行爬取图片
首先打开美桌网，使用F12或者鼠标右键查看源代码及元素属性。
我们要对该页面展示的图片进行爬取，那么需要对元素进行定位：
爬取的图片及其源文件位置
所有的图片都在此唯一标签下
进行分析，发现所有的图片都是使用<li> </li>标签展示的，而 <li></li> 标签的父节点 <ul class="clearfix"> 是当前页面唯一属性，那么可以使用Xpath进行定位

复制代码

    	xpath("//ul[@class='clearfix']/li[{}]/a/@href".format(n))[1]

n为 <ul class="clearfix"> 节点下的第n个 <li></li>标签
- @href则为a标签的href属性，即跳转链接（原图网页）
- “1”是因为获取到的是一个list，我们需要的链接就是list[1]

requests-html

requests-html 和 requests 发送http请求基本相同。

复制代码

    	from requests_html import HTMLSession
    	session = HTMLSession()
    	url = "http://www.win4000.com/wallpaper_2358_0_10_1.html"
    	req = session.get(url)
    	print(req)
    	print(req.html)
    	print(req.html.html)

对象req 是requests.Reponse类型，更确切的说是继承自前者的requests_html.HTMLResponse类型。这里其实和requests库的使用方法差不多，获取到的响应对象其实其实也没啥用，这里的关键就在于 r.html 这个属性，它会返回 requests_html.HTML 这个类型，它是整个requests_html库中最核心的一个类，负责对HTML进行解析。我们学习requests_html这个库，其实也就是学习这个HTML类的使用方法。

在IDE里面结果如下：

复制代码

    <Response [200]>												#打印状态码
    <HTML url='http://www.win4000.com/wallpaper_2358_0_10_1.html'>	#打印url
    <html>															#打印页面的源码
    	***
    </html>

由于采用 beautifulsoup4 的二次封装，使用 requests_html 的最主要目的还是用来解析HTML网页。
使用Xpath定位刚才选择的图片的原图位置：

复制代码

    	img_link = (req.html.xpath("//ul[@class='clearfix']/li[{}]/a/@href".format(1))[1])
    	pring(img_link)

我们打印得到的链接，使用浏览器打开，发现果然是我们需要的原图，继续F12调试：

找到了图片的<img> 标签 src 属性，使用requests_html库的xpath定位：

复制代码

    img = (req.html.xpath("//div[@class='pic-meinv']/a/img/@src"))[0]	#图片链接
    tit = (req.html.xpath("//div[@class='pic-meinv']/a/img/@alt"))[0]	#图片说明

这样我们就成功爬取到了图片，只需要保存进本地就可以。

复制代码

    	def save_image(url, title):
    	    img_response = session.get(url)
    	    with open('./img/'+title+'.jpg', 'wb') as file:
    	        file.write(img_response.content)

这样我们就通过requests-html爬取了美桌网的图片，如果需要大量爬取的话，只需要写一个main函数，里面循环进行获取图片的原图网页，然后通过原图网页获取原图链接，再通过 file.write写进本地即可。

注意：

网页爬虫需遵循robots协议，部分网站存在反爬机制，可能需要在session中携带 cookies 或 heards。

全部评论 (0)

还没有任何评论哟~

Python 使用requests-html 进行爬虫

介绍： Requsts库，里面是一个用来模拟发送HTTP请求的第三方Python库。常用来做爬虫或接口测试，相对于urllib等系统库，requests具有简洁方便和高效等特点。

使用Requests模块进行爬虫

目标使用requests模块爬取云栖社区的博文数据安装在windows系统下，打开cmd使用pipinstallresquests安装准备工作想要爬取一个网站，首先需要分析这个网站上面的信息...

python requests下载网页_python爬虫 requests-html的使用

一介绍 Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requestshtml，看名字也能猜出来...

Python爬虫实战——requests-html

编写爬虫时requests+BeautifulSoup是一对完美的组合，现在requests库的作者又发布了一个功能强大的新库requestshtml 用过requests库的同学都应该都喜欢他的简洁...

使用Requests库来进行爬虫的详解

Requests是用Python编写，基于urllib，采用Apache2Licensed开源协议的HTTP库。它比urllib更方便，可以节约我们大量的工作，完全满足HTTP测试需求。

Python爬虫库requests-html进行HTTP请求HTML解析等高级功能应用

引言在网络爬虫开发中，使用强大的库是至关重要的，而requestshtml就是其中一颗璀璨的明星。本文将深度探讨requestshtml的各个方面，包括基本的HTTP请求、HTML解析、JavaSc...

Python爬虫之三：爬虫 requests 库的使用

一、requests的安装 1、通过dos窗口，输入：pipinstallrequests进行安装 2、通过pycharm的setting中搜索：resquests进行安装 requests库的中文文...

Python爬虫(requests模块使用)

目录 requests发送get请求 requests响应对象练习爬取多个图片 requests请求时设置请求头 requests发送POST请求 requests使用代理 requests请求携带...

Python爬虫：requests模块使用

requests模块使用流程环境安装爬虫的第一个实例：获取搜狗搜索网页的源代码 []requests模块 python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。用于发送请...

是否确定退出登录?

Python 使用requests-html 进行爬虫

介绍：

学习

预备知识

安装

元素定位

requests-html

注意：

全部评论 (0)

相关文章推荐

Python 使用requests-html 进行爬虫

使用Requests模块进行爬虫

python requests下载网页_python爬虫 requests-html的使用

Python爬虫实战——requests-html

使用Requests库来进行爬虫的详解

Python爬虫库requests-html进行HTTP请求HTML解析等高级功能应用

Python爬虫之三：爬虫 requests 库的使用

Python爬虫(requests模块使用)

Python爬虫：requests模块使用

Python爬虫：requests模块使用