爬虫笔记--Requests库的应用（网页爬取）

阅读量：

上个月讲解了requests库的主要参数与功能。最近我们分享了一些基于requests库的应用程序设计方法。所有学习内容均以《Python网络爬虫与信息提取》为基础进行开发。

一、网页爬取框架

该库的主要功能是负责实现网络数据采集。其采用相似的基础机制来进行网页抓取。

复制代码

 #爬取网页通用代码框架

    
 import requests
    
 def getHTMLText(URL):
    
     try:
    
     r = requests.get(URL,timeout=30)
    
     #timeout设置一个返回时间
    
     # 如果在这个时间之内请求没有返回
    
     # 就返回一个TimeError
    
     r.raise_for_status()
    
     r.encoding = r.apparent_encoding
    
     #将网页的编码实际分析值传递给猜测值
    
     return r.text
    
     except:
    
     return "产生异常"
    
 if __name__=="__main__":
    
     URL = "http://www.baidu.com"
    
     print(getHTMLText(URL)) # 打印爬取信息

为了避免各种可能出现的问题，并非每条网页都能被成功抓取，在此情况下我们设置了异常处理机制以防止可能出现的各种错误。通过该框架系统我们可以获取部分网页数据，并且需要特别注意并非每条进入数据库的记录都对应真实存在的数据源

二、爬取网页的文件

有时为了获取网页上的某些内容,但是如果没有下载按钮可用时,则可以用这种方法试试看.

复制代码

 #爬取web网页的photo文件

    
 import requests
    
 import os # os库对计算机文件进行操作(主要用来判断文件是否存在和建立文件)
    
 url = "http://img0.dili360.com/pic/2018/09/26/5bab38dfd80333y53304453_t.jpg"
    
 root = "X://Get-web-photo//"
    
 path = root + url.split("/")[-1]
    
 #运用split函数对url进行切片,并用分割后的字符串列表的最后一个元素
    
 #这里这么操作可以得到文件的名字和后缀,配合OS库就能够完成文件的保存
    
 try:
    
     if not os.path.exists(root): #判断根目录是否存在，不存在就建立一个这样的根目录
    
     os.mkdir(root) #建立
    
     if not os.path.exists(path): #判断文件是否存在
    
     r = requests.get(url)
    
     with open (path,'wb') as f:#打开路径写入文件
    
         f.write(r.content)
    
         print("文件保存成功")
    
         f.close()
    
     else:
    
     print("文件已经存在")
    
 except:
    
     print("获取文件失败")

从该处获取此方法还可以用于获取其他文件。由于网页下载通常采用链接方式进行操作。

三、向网页提交搜索请求

有时，在处理网页内容时, 我们常会以百度搜索为主进行操作. 于是乎, 在探索网页搜索时

我们来观察一下百度搜索是怎么提交关键字的

是不是找到什么规律了？

对啊！没错啦！其实说起来就是这样——搜索本质上也是一种提交机制；我们可以通过这种方式来发布关键字以便搜索。

举个例子来说吧，在这里我会给出一段关于IP地址归属地查询的代码片段。其本质都大同小异的是这些方法都是基于相同的基本逻辑设计的：它们都利用关键字与URL进行数据提交请求，在服务器端解析返回的信息后就能实现对IP地址来源位置的具体识别和定位功能了。

提交百度搜索也是一样的，你可以尝试着做一下。

复制代码

 import requests

    
 keyword = "111.227.147.21"
    
 try:
    
     kv = {'ip':keyword} # 构建键值对替换ip进行查询
    
     r = requests.get("http://m.ip138.com/ip.asp",params = kv)
    
     print(r.request.url) #打印出ip地址查询界面的url
    
     r.raise_for_status() # 错误返回函数
    
     print(len(r.text)) # 页面字节长度
    
     print(r.text[-500:]) # 打印页面后500个字节信息
    
 except:
    
     print("查询失败")

至此，几款关于requests的小应用都向大家展示出来了。其核心机制是相同的，都是基于requests库对URL执行多种功能模块以实现特定目标。

全部评论 (0)

还没有任何评论哟~

爬虫笔记--Requests库的应用（网页爬取）

上次介绍了requests库的一些参数和函数，今天我给大家介绍一些requests库的小应用，所有学习都是基于《Python网络爬虫与信息提取》。一、网页爬取框架对于requests这个库来说，最...

Python爬虫笔记之用BeautifulSoup及requests库爬取

这次要爬取的是一个壁纸网站wallhaven,里面有很多用户上传的高清壁纸分享。点击进去会出现一个搜索页面,输入dota2,这就得到了我们要爬取的第一个url:”https://alpha.wallh...

【Python网络爬虫笔记】6- 网络爬虫中的Requests库

一、概述 Requests是一个用Python语言编写的、简洁且功能强大的HTTP库。它允许开发者方便地发送各种HTTP请求，如GET、POST、PUT、DELETE等，并且可以轻松地处理请求的响应。

python网络爬虫——自学笔记1.用requests库爬取图片

requests库的安装 rrequests库是公认的python的一个一个非常优秀的第三方库，下载方法也很简单只需Win+R打开控制台命令窗口，输入pipinstallrequests后回车等待安...

爬虫笔记(一)——Requests库

文章目录写在前面一、Requests库入门 1.Requests库的安装 1安装Requests库 2测试Requests库 2.Requests库的get方法 1get方法简介 2Respons...

python爬取网页的库_利用requests库爬取网页获取数据

一、get请求测试小例子：获取一个get请求，用get的方式直接访问网址 url='https://movie.douban.com/top250' response=requests.getur...

python网页爬虫requests和bs4应用

一、requests使用详解导入模块包 importrequests 1\.发送请求 requests.get请求地址直接获取请求地址对应的数据请求对象没有要求是浏览器的时候 requests.g...

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片

刚开始接触网络爬虫，记录自己的学习历程。开发环境：python3.6IDLE 爬取对象及任务：爬取学院网站上教师的信息，将教师照片保存在某一文件下。 url='http://cmee.nwafu.e...

爬虫基础--requests库(获取网页信息)

官网文档–<http://docs.pythonrequests.org/zhCN/latest/user/quickstart.html 发送get,post请求 res=requests.getu...

python网络爬虫1——Requests库获取页面

目录第一章Requests库 1.Requests库的安装 2.Requests库最常用的方法：requests.get 3.Response对象的属性 4.爬取网页的通用代码框架（1）Reque...

是否确定退出登录?

爬虫笔记--Requests库的应用（网页爬取）

一、网页爬取框架

二、爬取网页的文件

三、向网页提交搜索请求

全部评论 (0)

相关文章推荐

爬虫笔记--Requests库的应用（网页爬取）

Python爬虫笔记之用BeautifulSoup及requests库爬取

【Python网络爬虫笔记】6- 网络爬虫中的Requests库

python网络爬虫——自学笔记1.用requests库爬取图片

爬虫笔记(一)——Requests库

python爬取网页的库_利用requests库爬取网页获取数据

python网页爬虫requests和bs4应用

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片

爬虫基础--requests库(获取网页信息)

python网络爬虫1——Requests库 获取页面

python网络爬虫1——Requests库获取页面