《学习日记之Python》——正则表达式爬取高考网的高校信息

阅读量：

今天来学习利用正则表达式爬取高考网的高校信息

人生苦短，我用python

今天要爬取的是高考网广东地区的高校
链接：http://college.gaokao.com/schlist/a14/p

爬取如图下红色框框内的信息（包括学校主页的链接）
在这里插入图片描述

步骤一：查找元素所在位置
在这里插入图片描述
步骤二：用正则表达式提取所需信息

复制代码

    def parse_one_page(html):
    pattern=re.compile('<dt>.*?href="(.*?)".*?<img.*?src="(.*?)"'
                       +'.*?<li>(.*?)</li>.*?<li>.*?<li>(.*?)</li>'
                        +'.*?<li>(.*?)</li>.*?<li>(.*?)</li>.*?<li>(.*?)</li>',re.S)
    items=re.findall(pattern,html)
    print(items)
    for item in items:
        yield {
            'web':item[0],
            'image':item[1],
            'position':item[2],
            'style':item[3],
            'Belong':item[4],
            'education':item[5],
            'schoolweb':item[6]
        }

步骤三：根据页数循环爬取信息

复制代码

    def main(offset):
    url = 'http://college.gaokao.com/schlist/a14/p'+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)
        
    if __name__ == '__main__':
    for i in range(1,5):
        main(offset=i)
        time.sleep(1)

完整代码如下

复制代码

    import requests
    import time
    import json
    import re
    from requests.exceptions import RequestException
    from bs4 import BeautifulSoup
    
    
    def get_one_page(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None
    
    
    
    def parse_one_page(html):
    pattern=re.compile('<dt>.*?href="(.*?)".*?<img.*?src="(.*?)"'
                       +'.*?<li>(.*?)</li>.*?<li>.*?<li>(.*?)</li>'
                        +'.*?<li>(.*?)</li>.*?<li>(.*?)</li>.*?<li>(.*?)</li>',re.S)
    items=re.findall(pattern,html)
    print(items)
    for item in items:
        yield {
            'web':item[0],
            'image':item[1],
            'position':item[2],
            'style':item[3],
            'Belong':item[4],
            'education':item[5],
            'schoolweb':item[6]
        }
    
    def write_to_file(content):
    with open('gaoxiao.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')
    
    
    def main(offset):
    url = 'http://college.gaokao.com/schlist/a14/p'+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)
    
    if __name__ == '__main__':
    for i in range(1,5):
        main(offset=i)
        time.sleep(1)

最后爬取实现效果如下 （以中大大学为例）
{“web”: “http://college.gaokao.com/school/30/”, “image”: “http://college.gaokao.com/style/college/images/icon/30.png”, “position”: “高校所在地：广东”, “style”: “高校类型：工科”, “Belong”: “高校隶属：教育部”, “education”: “高校性质：本科”, “schoolweb”: “学校网址：www.scut.edu.cn”}

全部评论 (0)

还没有任何评论哟~

《学习日记之Python》——正则表达式爬取高考网的高校信息

今天来学习利用正则表达式爬取高考网的高校信息人生苦短，我用python 今天要爬取的是高考网广东地区的高校链接：<http://college.gaokao.com/schlist/a14/p 爬...

Python使用正则表达式爬取网页信息

Python使用正则表达式爬取网页信息一、正则表达式是什么? 二、实战项目 1.爬取内容 2.访问链接 3.正则表达式书写的灵感 4.项目源代码一、正则表达式是什么? 概念: 正则表达式是对字符串...

Python爬虫——爬取阳光高考网高校信息

在本次学习中主要爬取的内容如下就简单粗暴直接献上代码吧 importrequests importtime importjson frombs4importBeautifulSoup defgeto...

【复习】利用正则表达式爬取网站的信息

上一篇文章提到了正则表达式爬取的某小说网站的小说，但是这种爬取的方法是非常有限的，比如，正文部分必须干净，只有一两个<p或者<br的标签，如果是这样的那么利用正则表达式很难再清理掉这些代码。先不管这...

【python】网络爬虫与信息提取--正则表达式

一、正则表达式正则表达式是用来简洁表达一组字符串的表达式。是通用的字符串表达框架，简洁表达一组字符串的表达式，针对字符串表达“简洁”和“特征”思想的工具，判断某字符串的特征归属。用处：表达文本类型...

Python网络爬虫与信息提取——正则表达式

Python网络爬虫与信息提取——正则表达式正则表达式的语法正则表达式的常用操作符操作符说明实例 .表示任何单个字符 []字符集，对单个字符给出取值范围[abc]表示a、b、c,[az]表示a到...

Python爬虫之九：用正则表达式爬取赶集网租房信息

一、项目分析 1、查询主页和详情页面的关系得出数据关系：每一个class属性为flistitemershoufanglist的div包含着整个需要爬取数据的信息，且查询ershoufanglist为...

Python网络爬虫与信息提取(三) 正则表达式

正则表达式正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。 compile函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则...

python正则表达式爬取网页数据_常用正则表达式爬取网页信息及HTML分析总结

Python爬取网页信息时，经常使用的正则表达式及方法。 1.获取标签之间内容2.获取超链接之间内容3.获取URL最后一个参数命名图片或传递参数4.爬取网页中所有URL链接5.爬取网页标题title...

学信网高校信息爬取

代码学习这是学信网高校信息爬取的代码（python）,写的不好，请大家多多包涵并指教，最近比较忙，注释和代码的优化以后有时间再搞。 importrequests爬虫库 frombs4importBe...

是否确定退出登录?

《学习日记之Python》——正则表达式爬取高考网的高校信息

全部评论 (0)

相关文章推荐

《学习日记之Python》——正则表达式爬取高考网的高校信息

Python使用正则表达式爬取网页信息

Python爬虫——爬取阳光高考网高校信息

【复习】利用正则表达式爬取网站的信息

【python】网络爬虫与信息提取--正则表达式

Python网络爬虫与信息提取——正则表达式

Python爬虫之九：用正则表达式爬取赶集网租房信息

Python网络爬虫与信息提取(三) 正则表达式

python正则表达式爬取网页数据_常用正则表达式爬取网页信息及HTML分析总结

学信网高校信息爬取