爬取网页后的抓取数据_3种抓取网页数据方法

阅读量：

1. 正则表达式

(1)

复制代码

    re.findall('<tr id="places_area__row">.*?<td\s*class=["\']w2p_fw["\']>(.*?)</td>', html)
    
    代码解读

(2)

复制代码

 import re

    
 pattern = re.compile("hello")
    
 #match_list = re.findall(pattern, "hello world! hello") 这个是找全部匹配的，返回列表
    
 match = pattern.match("hello world! hello") #这个是找匹配的，有就返回一个，没有返回None
    
 print(match)
    
    
    
    
    代码解读

2. BeautifulSoup(bs4)

学习Python中掌握使用Beautiful Soup库的非常详细教程：http://www.jb51.net/article/65287.htm

复制代码

 from bs4 import BeautifulSoup

    
 >>> soup = BeautifulSoup(html, "html.parser")    #用html解释器对得到的html文本进行解析
    
 >>> tr = soup.find(attrs={"id":"places_area__row"})
    
 >>> tr
    
 <tr id="places_area__row"><td class="w2p_fl"><label for="places_area" id="places_area__label">Area: </label></td><td class="w2p_fw">244,820 square kilometres</td><td class="w2p_fc"></td></tr>
    
 >>> td = tr.find(attrs={"class":"w2p_fw"})
    
 >>> td
    
 <td class="w2p_fw">244,820 square kilometres</td>
    
 >>> area = td.text
    
 >>> print(area)
    
 244,820 square kilometres
    
    
    
    
    代码解读

3. Lxml

Lxml是以libxml2这一XML解析库为基础开发而成的Python封装模块。该模块采用C语言进行编写，在性能上显著优于BeautifulSoup工具。通过书中对比分析得出的结论可知，在爬取网页并进行数据采集的过程中，默认采用以下步骤：首先对网页源码进行解析（采用上述三种工具中的Lxml方法），随后选择所需数据（采用CSS选择器进行定位）。

复制代码

 #先解析网页源码（lxml）示例

    
 import lxml.html
    
 broken_html = "<ul class=country><li>Area<li>Population</ul>"
    
 tree = lxml.html.fromstring(broken_html)  #解析已经完成
    
 fixed_html = lxml.html.tostring(tree, pretty_print=True)  
    
 print(fixed_html)
    
  
    
 #output
    
 #b'<ul class="country">\n<li>Area</li>\n<li>Population</li>\n</ul>\n'
    
    
    
    
    代码解读

复制代码

 #解析网页源码（lxml）后使用css选择器提取目标信息

    
 import lxml.html
    
 import cssselect
    
 html = download("http://example.webscraping.com/view/Aland-Islands-2") #下载网页
    
 html = str(html)
    
 tree = lxml.html.fromstring(html)  #解析已经完成
    
 td = tree.cssselect("tr#places_area__row > td.w2p_fw")[0]  #选择id="plac..."名为tr的标签下的，class="w2p..."名为td的标签中[0]元素
    
 area = td.text_content()   #目标信息area值为td标签中的text信息
    
 print(area)
    
    
    
    
    代码解读

以上三种方法性能对比与结论：

全部评论 (0)

还没有任何评论哟~

爬取网页后的抓取数据_3种抓取网页数据方法

1\.正则表达式 1 re.findall'<trid=placesarearow.?<td\sclass=[\']w2pfw[\'].?</td',html 代码解读 2 importre patt...

java分页抓取数据_网页分页数据抓取的几种方式

相信所有个人网站的站长都有抓取别人数据的经历吧，目前抓取别人网站数据的方式无非两种方式：一、使用第三方工具，其中最著名的是火车头采集器，在此不做介绍。二、自己写程序抓取，这种方式要求站长自己写程序...

java 抓取网页_Java抓取网页数据

有时候由于种种原因，我们需要采集某个网站的数据，但由于不同网站对数据的显示方式略有不同！本文就用Java给大家演示如何抓取网站的数据：1抓取原网页数据；2抓取网页JavaScript返回的数据。一...

网页数据抓取--爬虫

数据抓取其实从字面意思就知道它是抓取数据的，在互联网世界中，数据量是一个非常大的。。有时候靠人为去获取数据这是一个非常不明智的。尤其是你需要的数据来自很多不同的地方。网络爬虫是是一种按照一定的规则，...

python抓取网页内容到excel,python爬虫抓取网页数据

大家好，小编来为大家解答以下问题，python网页数据抓取淘宝完整代码，python抓取网页数据并写入excel，现在让我们一起来看看吧！在着手写爬虫抓取网页之前，要先把其需要的知识线路理清楚。

python抓取网页内容到excel,python爬虫抓取网页数据

大家好，小编来为大家解答以下问题，python网页数据抓取淘宝完整代码，python抓取网页数据并写入excel，现在让我们一起来看看吧！前言本文是一篇介绍如何用Python实现简单爬取网页数据并...

python抓取网页内容到excel,python爬虫抓取网页数据

大家好，本文将围绕python网页数据抓取淘宝完整代码展开说明，python抓取网页数据并写入excel是一个很多人都想弄明白的事情，想搞清楚用python抓取一个网页的xhr需要先了解以下几个事情。...

python抓取网页内容到excel,python爬虫抓取网页数据

大家好，给大家分享一下python网页数据抓取淘宝完整代码，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！转自:Python写爬虫——抓取网页并解析HTML–尘埃落定 CUHK上学期有门...

C# 爬虫，抓取网页数据

这两天学习了爬虫的基础，这里简单总结一下。抓取到的网页商品数据，存入Excel表格，效果如下：使用的是JumonyCore这个引擎，非常强大，近乎完美的HTML解析引擎，支持css3选择器，直接抓...

python 抓取网页数据

利用python进行简单的数据分析在中关村在线进行抓取数据，所使用的网页是这个页面http://detail.zol.com.cn/cellphoneindex/subcate570list01000...

是否确定退出登录?

爬取网页后的抓取数据_3种抓取网页数据方法

1. 正则表达式

3. Lxml

以上三种方法性能对比与结论：

全部评论 (0)

相关文章推荐

爬取网页后的抓取数据_3种抓取网页数据方法

java分页抓取数据_网页分页数据抓取的几种方式

java 抓取网页_Java抓取网页数据

网页数据抓取--爬虫

python抓取网页内容到excel,python爬虫抓取网页数据

python抓取网页内容到excel,python爬虫抓取网页数据

python抓取网页内容到excel,python爬虫抓取网页数据

python抓取网页内容到excel,python爬虫抓取网页数据

C# 爬虫，抓取网页数据

python 抓取网页数据