python爬取网页的库_利用requests库爬取网页获取数据

阅读量：

一、get请求

测试小例子：

获取一个get请求，用get的方式直接访问网址

url = 'https://movie.douban.com/top250'

response = requests.get(url)

response.encoding = 'utf-8' # 出现乱码使用,对获取到的网页源码进行一个utf-8解码

print (response.text) # 获取网页的HTML字符串,该方式往往会出现乱码

print (response.status_code) # 返回状态码

运行后的结果：

返回状态418，说明被发现是爬虫了，无法正常响应，因此无法成功获取该网页的HTML字符串

解决办法：

对自己进行伪装，不让发现自己是一个爬虫,而是一个浏览器，

一般加上headers信息User-Agent并发送(让豆瓣知道我们不是爬虫，而是一个这种类型的浏览器)

若想要伪装更多，可以加上更多的键值对，例如：data、method、host、cookie等等

获取一个get请求，用get的方式直接访问网址

url = 'https://movie.douban.com/top250'

header={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}

response = requests.get(url,headers=header)

response.encoding = 'utf-8' # 出现乱码使用,对获取到的网页源码进行一个utf-8解码

print (response.status_code) #返回状态码

print (response.text) # 获取网页的HTML字符串,该方式往往会出现乱码

运行后结果：

状态码返回200，代表可以正常响应，也返回了该网页的HTML字符串

小知识：user-agent用户信息

有些网站有防御机制，抵御爬虫的访问，因此需要进行伪装

二、post请求

一个专门测试的网址：httpbin.org(请求和响应的一个服务，当你向它发送请求的时候，它会告诉你给你一些什么样的响应，可以通过这个方式可以测试一下你的请求是不是得到了你预期的响应，可以测试http)

例如测试post请求

进行代码测试：

获取一个post请求

respones=requests.post('http://httpbin.org/post')

print (respones.text)

运行后结果：

三、超时处理

在网络爬虫中会出现多种情况，例如链接是死链接或者链接的服务器有排斥的情况可能无法爬虫，所以需要监测

超时处理，在网络爬虫中会出现多种情况，例如链接是死链接或者链接的服务器有排斥的情况可能无法爬虫，所以有必要进行监测

try:

responses=requests.get('http://httpbin.org/get',timeout=0.01) # 超时的时间自己设置

print (responses.text)

except Exception as e:

print 'timeout'

运行后结果：

四、响应

responses属性：

responses=requests.get('http://www.baidu.com')

print (responses.status_code) # 返回状态码，例如200(表示正常响应)，418(表示被发现爬虫了)

print (responses.headers) # 返回响应头,获取头部信息

print (responses.cookies)

print (responses.url)

运行后结果：

五、伪装

不让发现自己是一个爬虫,而是一个浏览器(与上文的get请求报错的解决方法一样)

代码：

伪装，不让发现自己是一个爬虫,而是一个浏览器

url='http://www.douban.com' # 不能直接访问，应对请求对象进行封装

#url='http://httpbin.org/post'

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}

data={'name':'ruby','age':22} # 随意发送的data信息

respones=requests.post(url,headers=headers,data=data) # post请求

print (respones.text)

运行结果：

全部评论 (0)

还没有任何评论哟~

python爬取网页的库_利用requests库爬取网页获取数据

一、get请求测试小例子：获取一个get请求，用get的方式直接访问网址 url='https://movie.douban.com/top250' response=requests.getur...

Python网页解析库：用requests-html爬取网页

1\.开始 Python中可以进行网页解析的库有很多，常见的有BeautifulSoup和lxml等。在网上玩爬虫的文章通常都是介绍BeautifulSoup这个库，我平常也是常用这个库，最近用Xpa...

Python网页解析库：用requests-html爬取网页

首先，要有心理准备，不是说会自动化，就不用干手Python网页解析库：用requestshtml爬取网页 1\.开始 Python中可以进行网页解析的库有很多，常见的有BeautifulSoup和lx...

python网络爬虫1——Requests库获取页面

目录第一章Requests库 1.Requests库的安装 2.Requests库最常用的方法：requests.get 3.Response对象的属性 4.爬取网页的通用代码框架（1）Reque...

python爬取网页内容_利用Python轻松爬取网页题库

利用Python轻松爬取网页题库答案作者：梅朵微信公众号：实用办公编程技能微信号：ExcelPython 大家有没有遇到这种令人尴尬的情况：“好不容易在网上找到需要的资源数据，可是不容易下载下来...

python爬取网页数据分析,python爬虫获取网页数据

大家好，本文将围绕利用python爬取简单网页数据步骤展开说明，python爬取网页信息相关库三大类是一个很多人都想弄明白的事情，想搞清楚python爬取网页信息存入excel表格需要先了解以下几个事...

python爬虫获取网页数据,python爬取本地网页数据

大家好，本文将围绕利用python爬取简单网页数据步骤展开说明，python怎么爬取网站上的数据是一个很多人都想弄明白的事情，想搞清楚python怎么爬取网站所有网页需要先了解以下几个事情。

python爬取网页数据分析,python爬虫获取网页数据

大家好，小编来为大家解答以下问题，利用python爬取简单网页数据步骤，python爬取网页信息相关库三大类，今天让我们一起来看看吧！ Sourcecodedownload:本文相关源码在着手写爬虫...

python爬取网页数据分析,python爬虫获取网页数据

本篇文章给大家谈谈利用python爬取简单网页数据步骤，以及python爬取网页信息相关库三大类，希望对各位有所帮助，不要忘了收藏本站喔。 Sourcecodedownload:本文相关源码随着网络...

爬虫笔记--Requests库的应用（网页爬取）

上次介绍了requests库的一些参数和函数，今天我给大家介绍一些requests库的小应用，所有学习都是基于《Python网络爬虫与信息提取》。一、网页爬取框架对于requests这个库来说，最...

是否确定退出登录?

python爬取网页的库_利用requests库爬取网页获取数据

获取一个get请求，用get的方式直接访问网址

获取一个get请求，用get的方式直接访问网址

获取一个post请求

超时处理，在网络爬虫中会出现多种情况，例如链接是死链接或者链接的服务器有排斥的情况可能无法爬虫，所以有必要进行监测

伪装，不让发现自己是一个爬虫,而是一个浏览器

全部评论 (0)

相关文章推荐

python爬取网页的库_利用requests库爬取网页获取数据

Python网页解析库：用requests-html爬取网页

Python网页解析库：用requests-html爬取网页

python网络爬虫1——Requests库 获取页面

python爬取网页内容_利用Python轻松爬取网页题库

python爬取网页数据分析,python爬虫获取网页数据

python爬虫获取网页数据,python爬取本地网页数据

python爬取网页数据分析,python爬虫获取网页数据

python爬取网页数据分析,python爬虫获取网页数据

爬虫笔记--Requests库的应用（网页爬取）

python网络爬虫1——Requests库获取页面