Python爬虫练习：爬取网页需要信息

阅读量：

首先要下载requests和lxml模块

命令为：pip install requests 和pip install lxml

第一步导入模块，发送请求，获取数据，并存入文件01.html

此时01.html为（说明已经存入）

第二步：从01.html中读取数据，处理数据（获取标题）

reslutData打印结果：

第三步将处理过后的数据存入title.csv文件，最前面加上:热点事件：

此时我们就得到了结果文件title.csv：

最后送上所有代码：

复制代码

 import csv

    
 # 因为要将文件存为csv格式
    
 import requests
    
 from lxml import etree
    
  
    
 url="https://www.zj.gov.cn/"
    
  
    
 # content=requests.get(url).text
    
 # 上面这种方法无法处理乱码--不采用
    
  
    
 # 采用下面这种
    
 content=requests.get(url).content.decode()
    
 # print(content)
    
  
    
 with open("01.html",'w',encoding="utf-8") as f:
    
     f.write(content)
    
  
    
  
    
 f=open("01.html",'r',encoding="utf-8")
    
  
    
 readData=f.read()
    
 texts=etree.HTML(readData)
    
 # 转化为html格式
    
  
    
 reslutData=texts.xpath("//span[@class=\"Title\"]/text()")
    
 # 如上图所示我们要的是带有Title类的span标签
    
 print(reslutData)
    
  
    
  
    
 with open("title.csv","w",encoding="utf-8",newline="") as f:
    
     # newline参数可以帮助处理换行符解析的问题
    
     writer=csv.writer(f)
    
     # writer()的功能是创建一个常规Writer的对象，但是调用writer()
    
     # 的writerow / writerows方法是要传入的是列表类型数据。所以下面输入数据要加[]
    
     writer.writerow(['热点事件：'])
    
     for i in reslutData:
    
     writer.writerow([i])
    
    
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-17/f2IBvP3iSUdQ9HaM8wcWGnCRmh4O.png)

全部评论 (0)

还没有任何评论哟~

Python爬虫练习：爬取网页需要信息

首先要下载requests和lxml模块命令为：pipinstallrequests和pipinstalllxml 第一步导入模块，发送请求，获取数据，并存入文件01.html 此时01.html为...

python爬虫爬取网页信息

爬虫流程：准备工作➡️爬取网页，获取数据（核心）➡️解析内容➡️保存数据解析页面内容：使用beautifulsoup定位特定的标签位置，使用正则表达式找到具体内容 import导入一些库，做准备工作...

python爬虫爬取网页信息

python爬虫爬取古诗词网站导入库 importrequests获取网页 fromlxmlimportetree解析网页库函数1：获取网页 defgethtmlk,typev1: url=htt...

Python 爬取需要登陆的网页的信息

Python爬取需要登陆的网页的信息登入网页方式 1Cookie 2Selenium 代码实现及解释登入网页登入网页后爬取菜单下的网页的信息保存爬取的信息全部代码登入网页方式 1Cooki...

爬虫入门—网页信息爬取

爬虫入门—网页信息爬取一、网络爬虫简介 1.概念 2.类型 3.使用范围 4.合法性 5.搜索策略 6.基本结构二、环境准备三、爬取南阳理工学院ACM题目网站四、爬取重庆交通大学新闻网站参考...

爬虫练习：爬取网页数据

1爬虫练习（urllib+xpath）爬取某公司官网新闻中心板块（“http://www.tipdm.com/xwzx/index.jhtml”）中的新闻标题和新闻内容，爬取页数为5页。

[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息

一、前言之前使用原生的Python库去爬取网页信息，经常要使用正则表达式，笔者记性不是很好，经常经常忘记相关符号及其作用。后来使用著名的Scrapy框架去爬取信息，感觉太笨重了，特别是一个项目开发...

爬虫练习-爬取拉勾网招聘信息（2020.2.2）

前言：应对AJAX动态加载，并应用表单的交互技术，爬取爬取拉勾网招聘信息，解析网页返回的json数据，并将爬取的数据存储于MongoDB数据库中。本文为整理代码，梳理思路，验证代码有效性——202...

python网络爬虫爬取需要的数据

要爬取网站的数据，你可以使用Python的requests库来发送HTTP请求，并使用BeautifulSoup库来解析返回的HTML内容。但是，在此之前，你需要检查该网站的robots.txt文件，...

爬取招聘信息（爬虫练习2）

首先新建一个python文件，开始爬取招聘信息 2.在终端中输入pipinstallrequests/lxml，安装所需库 3.导入所需要的库以及定义好要爬取招聘信息网页的网址 4.定义好header...

是否确定退出登录?

Python爬虫练习：爬取网页需要信息

首先要下载requests和lxml模块

第一步导入模块，发送请求，获取数据，并存入文件01.html

第二步：从01.html中读取数据，处理数据（获取标题）

第三步将处理过后的数据存入title.csv文件，最前面加上:热点事件：

此时我们就得到了结果文件title.csv：

最后送上所有代码：

全部评论 (0)

相关文章推荐

Python爬虫练习：爬取网页需要信息

python爬虫爬取网页信息

python爬虫 爬取网页信息

Python 爬取需要登陆的网页的信息

爬虫入门—网页信息爬取

爬虫练习：爬取网页数据

[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息

爬虫练习-爬取拉勾网招聘信息（2020.2.2）

python网络爬虫爬取需要的数据

爬取招聘信息（爬虫练习2）

python爬虫爬取网页信息