Advertisement

Python爬虫练习:爬取网页需要信息

阅读量:

首先要下载requests和lxml模块

命令为:pip install requests 和pip install lxml

第一步导入模块,发送请求,获取数据,并存入文件01.html

此时01.html为 (说明已经存入)

第二步:从01.html中读取数据,处理数据(获取标题)

reslutData打印结果:

第三步将处理过后的数据存入title.csv文件,最前面加上:热点事件:

此时我们就得到了结果文件title.csv:

最后送上所有代码:

复制代码
 import csv

    
 # 因为要将文件存为csv格式
    
 import requests
    
 from lxml import etree
    
  
    
 url="https://www.zj.gov.cn/"
    
  
    
 # content=requests.get(url).text
    
 # 上面这种方法无法处理乱码--不采用
    
  
    
 # 采用下面这种
    
 content=requests.get(url).content.decode()
    
 # print(content)
    
  
    
 with open("01.html",'w',encoding="utf-8") as f:
    
     f.write(content)
    
  
    
  
    
 f=open("01.html",'r',encoding="utf-8")
    
  
    
 readData=f.read()
    
 texts=etree.HTML(readData)
    
 # 转化为html格式
    
  
    
 reslutData=texts.xpath("//span[@class=\"Title\"]/text()")
    
 # 如上图所示我们要的是带有Title类的span标签
    
 print(reslutData)
    
  
    
  
    
 with open("title.csv","w",encoding="utf-8",newline="") as f:
    
     # newline参数可以帮助处理换行符解析的问题
    
     writer=csv.writer(f)
    
     # writer()的功能是创建一个常规Writer的对象,但是调用writer()
    
     # 的writerow / writerows方法是要传入的是列表类型数据。所以下面输入数据要加[]
    
     writer.writerow(['热点事件:'])
    
     for i in reslutData:
    
     writer.writerow([i])
    
    
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-17/f2IBvP3iSUdQ9HaM8wcWGnCRmh4O.png)

全部评论 (0)

还没有任何评论哟~