【python爬虫】中小学人教版教材下载实践

阅读量：

通过深入分析算法原理并结合实际案例研究, 我们成功验证了该算法在解决复杂问题方面的有效性.

中小学人教版教材pdf来源：https://bp.pep.com.cn/jc/index.html

代码运行环境

复制代码

    # 运行环境 Anaconda pycharm python3
    # python 包下载 
    pip install Beautifulsoup4 tqdm lxml

代码

复制代码

    #!/usr/bin/env python3
    # encoding: utf-8
    
    import requests, bs4
    from tqdm import tqdm
    import winreg
    
    # 获取文件名称和下载地址
    def get_soup(url):
    r = requests.get(url)
    r.encoding = 'utf-8'  # 用utf-8解码文档
    rt = r.text
    soup = bs4.BeautifulSoup(rt, 'lxml')
    return soup
    
    # 创建文件夹
    def mkdir(path):
    # 引入模块
    import os
    # 去除首位空格
    path = path.strip()
    # 去除尾部 \ 符号
    path = path.rstrip("\ ")
    # 判断路径是否存在
    # 存在     True
    # 不存在   False
    isExists = os.path.exists(path)
    # 判断结果
    if not isExists:
        # 如果不存在则创建目录
        # 创建目录操作函数
        os.makedirs(path)
        print(path + ' 创建成功')
        return True
    else:
        # 如果目录存在则不创建，并提示目录已存在
        print(path + ' 目录已存在')
        return False
    
    # 获取桌面路径
    def get_desktop():
    key = winreg.OpenKey(winreg.HKEY_CURRENT_USER, r'Software\Microsoft\Windows\CurrentVersion\Explorer\Shell Folders')
    return winreg.QueryValueEx(key, "Desktop")[0]
    
    # 下载文件
    def get_pdf(savename, filename, url):
    response = requests.get(url, stream="TRUE")
    # stream=True的作用是仅让响应头被下载，连接保持打开状态，
    content_size = int(response.headers['Content-Length']) / 1024
    # 确定整个安装包的大小
    # pdf = response.content
    pbar = tqdm(total=content_size, initial=0, unit='B', unit_scale=True, desc=filename)
    with open(savename, 'wb') as f:
        # 下载文件
        for chunk in response.iter_content(chunk_size=1024):
            if chunk:
                f.write(chunk)
                # 更新文件大小
                pbar.update(1024)
    pbar.close()
    
    # 链接地址
    url = 'https://bp.pep.com.cn/jc/index.html'
    # 学科名称
    discipline0 = '人教版中小学电子教案'  # 学科主目录
    discipline1 = []  # 学科一级目录
    discipline2 = {}  # 学科二级目录
    discipline = get_soup(url=url).find_all('div', "list_sjzl_jcdzs2020")
    # 创建主目录
    mkdir(path=get_desktop() + "\ " + discipline0)
    
    for i in discipline:
    discipline_class = i.find('div', "container_title_jcdzs2020")
    discipline_class_name = discipline_class.get_text()
    # 创建一级目录
    mkdir(path=get_desktop() + "\ " + discipline0 + "\ " + discipline_class_name)
    # 一级目录list
    # discipline1.append(discipline_class_name)
    for a in i.find_all('a'):
        value = 'https://bp.pep.com.cn/jc' + a['href'][1:]
        key = a.get_text()
        discipline2[key] = value  # 创建字典
        # 创建二级目录
        mkdir(path=get_desktop() + "\ " + discipline0 + "\ " + discipline_class_name + "\ " + key)
        textbook = get_soup(url=value).find_all('ul', "clearfix")
        for i in textbook:
            for j in i.find_all('li', 'fl js_cp'):
                save_name = get_desktop() + "\ " + discipline0 + "\ " + discipline_class_name + "\ " + key + '\ ' + \
                            j.find('a')['title'] + ".pdf"
                h_url = j.find('a', "btn_type_dl")['href']
                d_url = value + h_url[2:]
                get_pdf(savename=save_name, filename=j.find('a')['title'], url=d_url)

运行代码

人教版中小学电子教案

人民教育出版社中小学电子教学资源库

全部评论 (0)

还没有任何评论哟~

【python爬虫】中小学人教版教材下载实践

参考：https://www.52pojie.cn/forum.php?mod=viewthread&tid=1112067 中小学人教版教材pdf来源：<https://bp.pep.com.cn/...

python爬虫实践教学

i春秋作家：Mochazz 一、前言这篇文章之前是给新人培训时用的，大家觉的挺好理解的，所以就分享出来，与大家一起学习。如果你学过一些python，想用它做些什么又没有方向，不妨试试完成下面几个案例...

中学计算机教材,人教版初中信息技术教材梳理

《人教版初中信息技术教材梳理》由会员分享，可在线阅读，更多相关《人教版初中信息技术教材梳理17页珍藏版》请在人人文库网上搜索。 1、初中信息技术教材梳理授课年级：七、八、九年级科目：信息技术授课教师：...

Python实现官网中小学教材pdf自动搜索及下载（2024.8)

\ 引入程序目的：用Python实现官网中小学教材pdf的爬取，并实现自动搜索，保存本地。从而更加快捷地获取高清正版教材。实现策略：先对原始网页抓包分析，构建并理清教材获取的过程和逻辑，再用程序实...

爬虫python下载-python 下载爬虫

python下载爬虫用python写爬虫，一般基于两种形式： 1\.为了爬取页面内容。2.下载文件，有很多下载站，提供下载链接。这两种爬虫，都有可能遇到需要登录后才能下载。所以涉及到用python...

Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本（一）

经过一晚上的休息，我已经重新从阴影中站了起来，并重新发现了一个人性化的网站，一起来看看这个网站吧来到了人民教育出版社的官网，一看，顿时晕眩三秒，我昨天的努力不都白费了吗，只得重新打起精神，研究一下这...

Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本（二）

文章目录思路梳理封装函数重要提示系列文章思路梳理我们打开网页，可以看到这其中有许多链接，我们可以查看一下网页源代码，可以看到如我们所期盼的一样，这里有许多的链接，我们只需要把链接爬取出来就...

爬虫学习（2）： urllib教程与实践

文章目录一、前言框架二、网址请求 2.1打开网址 2.2超时设置 2.3错误抓取三、更深请求 3.1打开网址 3.2请求头添加 3.3链接解析四、Robots协议五、万能视频下载一、前言框...

手把手教你用Python网络爬虫实现起点小说下载

目录引言一、准备工作二、获取页面内容三、解析页面内容四、提取小说章节链接五、下载小说章节六、注意事项总结引言随着互联网的普及，网络爬虫技术已经成为获取数据的重要手段。其中，Pyth...

python爬虫之爬取《书趣阁》小说教学

前言：这次的爬虫难度系数不大，相对于我上次讲解的课程了来说有很好的验证和过度的效果，但是却有几个较新的知识点。包含文本解码，封装方法，写入txt，链接拼接等等，这也是我选择《书趣阁小说》来教学的原因。

是否确定退出登录?

【python爬虫】中小学人教版教材下载实践

代码运行环境

代码

运行代码

全部评论 (0)

相关文章推荐

【python爬虫】中小学人教版教材下载实践

python爬虫实践教学

中学计算机教材,人教版初中信息技术教材梳理

Python实现官网中小学教材pdf自动搜索及下载（2024.8)

爬虫python下载-python 下载 爬虫

Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本（一）

Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本（二）

爬虫学习（2）： urllib教程与实践

手把手教你用Python网络爬虫实现起点小说下载

python爬虫之爬取《书趣阁》小说教学

爬虫python下载-python 下载爬虫