python爬虫爬取网页信息

阅读量：

python爬虫爬取古诗词网站

导入库

复制代码

    import requests  # 获取网页
    from lxml import etree  # 解析网页库

函数1：获取网页

复制代码

    def get_html(k, type_v1):
    url = "https://so.gushiwen.cn/mingju/default.aspx?p={}&c={}&t=".format(k + 1, type_v1)  # 网址
    print(url)
    ua = {'User-Agent': "User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
    resp = requests.get(url, headers=ua)
    print(resp.status_code)  # 打印状态码
    # print(resp.text)   # 打印网页
    return resp

函数2：转换格式

复制代码

    def change_html(resp):
    # 2.解析元素
    html = etree.HTML(resp.text)  # 将网页转换为xpath能解析的格式
    result = etree.tostring(html)  # 格式修正
    return html

函数3：解析元素

复制代码

    def elem_def(html):
    # 2.1 解析标题
    title_v1 = html.xpath('//title/text()')
    print(title_v1)
    
    # 2.2 解析名句和作者
    verse_v1 = html.xpath("//div[@class='left']/div[@class='sons']/div/a[1]/text()")
    verse_href = html.xpath("//div[@class='left']/div[@class='sons']/div/a[1]/@href")
    #     print(len(verse_v1))
    #     print(verse_v1,verse_href)
    
    author_v1 = html.xpath("//div[@class='left']/div[@class='sons']/div/a[2]/text()")
    # 要求：取作者的超链接
    author_href = html.xpath("//div[@class='left']/div[@class='sons']/div/a[2]/@href")
    #     print(len(author_v1))
    #     print(author_v1,author_href)
    return (verse_v1, verse_href, author_v1, author_href)

函数4：保存数据

复制代码

    def save_def(verse_v1, verse_href, author_v1, author_href, k, type_v1):
    # 3.保存内容
    with open("{}诗句.txt".format(type_v1), 'a') as wf:
        wf.write("第{}页：\n".format(k + 1))
        for i in range(len(verse_v1)):
            wf.write("诗句：{}--{}\n诗句链接：{}\n作者链接：{}\n\n"
                     .format(verse_v1[i], author_v1[i], verse_href[i], author_href[i]))

函数5：获取主题

复制代码

    def theme_def(html):
    theme_v1 = html.xpath("//div[@class='left']/div[@class='titletype']/ \
                          div[@class='son2']/div[@class='sright']//a/text()")
    print(theme_v1)
    return theme_v1

函数6：获取页数

复制代码

    def page_def(type_v1):
    resp = get_html(0, type_v1)  # 调用获取网页函数
    html = change_html(resp)  # 调用转换函数 
    page_v1 = html.xpath("//div[@class='left']/div[@class='titletype']/ \
                          div[@class='son1']/h1/span/text()")
    return page_v1

主函数

复制代码

    def main():
    # 1.获取网页   
    theme_list = ['不限', '抒情', '四季', '山水', '天气', '人生',
                  '生活', '节日', '动物', '植物', '食物', '古籍',
                  '女子', '父亲', '母亲', '老师', '儿童']
    print('主题有：\n', " | ".join(theme_list))
    type_v1 = input("请输入您要获取的诗句类型：")  # 输入主题    
    # 当输入主题时，显示该主题的诗句有多少页？
    page_v1 = page_def(type_v1)
    print(page_v1)
    
    print()
    
    page_num = int(input("请输入您要获取的页数："))  # 输入你要的页数     
    for k in range(page_num):
        resp = get_html(k, type_v1)  # 调用获取网页函数
        html = change_html(resp)  # 调用转换函数
        print(html)
        resu = elem_def(html)  # 调用解析元素函数
        save_def(resu[0], resu[1], resu[2], resu[3], k, type_v1)  # 调用保存函数

函数入口

复制代码

    if __name__ == "__main__":
    main()

全部评论 (0)

还没有任何评论哟~

python爬虫爬取网页信息

爬虫流程：准备工作➡️爬取网页，获取数据（核心）➡️解析内容➡️保存数据解析页面内容：使用beautifulsoup定位特定的标签位置，使用正则表达式找到具体内容 import导入一些库，做准备工作...

python爬虫爬取网页信息

python爬虫爬取古诗词网站导入库 importrequests获取网页 fromlxmlimportetree解析网页库函数1：获取网页 defgethtmlk,typev1: url=htt...

爬虫入门—网页信息爬取

爬虫入门—网页信息爬取一、网络爬虫简介 1.概念 2.类型 3.使用范围 4.合法性 5.搜索策略 6.基本结构二、环境准备三、爬取南阳理工学院ACM题目网站四、爬取重庆交通大学新闻网站参考...

Python爬虫练习：爬取网页需要信息

首先要下载requests和lxml模块命令为：pipinstallrequests和pipinstalllxml 第一步导入模块，发送请求，获取数据，并存入文件01.html 此时01.html为...

Python爬虫爬取动态JS网页股票信息

前期准备工作在本例中使用的是python爬虫需要的两个基础的库，一个是requests库，另一个是BeautifulSoup库。在这里假设已经安装了这两个库，如果没有可以通过pip安装。

python爬虫（1）——简单的爬取网页的信息

获取网上真实的语料数据，本身对Py的掌握不是很好，记录下自己学习的过程，希望对你有帮助。 python3 获得taoeba的语料（不知道从哪翻到的这个网站，有各国语言的句子，访问速度较慢 coding...

python爬虫实现爬取网页主页信息（html代码）

python爬虫实现爬取网页主页信息（html代码） 1.爬取网站源码 urllib整体介绍： urllib是一个包,收集几个模块来处理网址 urllib.request打开和浏览url中内容 url...

爬虫爬取信息（python））

先来爬点简单的，然后再爬其他的东西文章目录 1，实验工具 2，爬取网站 1，先打开要爬的学校网站 2，代码 3，爬取学校官网的信息通知 1，查看网站 2，代码 4，总结 5，参考 1，实验工具 an...

Python爬虫爬取信息

Python爬虫爬取指定信息和我的上一篇文章相同，记录自己学习过程以及经验感受分享。上一篇文章内容是爬取指定图片，那么这一片文章就是爬取自己想要的文字部分信息。这个有什么用呢？在之后可以将爬取好的...

爬虫入门（简单网页信息爬取）

文章目录一、概念相关 1.爬虫 2.需要的包二、爬取南阳理工学院ACM题目 1.网站分析 2.代码编译 3.运行结果三、爬取某知名大学官网通知 1.网站分析 2.代码编译 3.运行结果四、总结...

是否确定退出登录?

python爬虫 爬取网页信息

python爬虫 爬取古诗词网站

导入库

函数1：获取网页

函数2：转换格式

函数3：解析元素

函数4：保存数据

函数5：获取主题

函数6：获取页数

主函数

函数入口

全部评论 (0)

相关文章推荐

python爬虫爬取网页信息

python爬虫 爬取网页信息

爬虫入门—网页信息爬取

Python爬虫练习：爬取网页需要信息

Python爬虫爬取动态JS网页股票信息

python爬虫（1）——简单的爬取网页的信息

python爬虫实现爬取网页主页信息（html代码）

爬虫爬取信息（python））

Python爬虫爬取信息

爬虫入门（简单网页信息爬取）

python爬虫爬取网页信息

python爬虫爬取古诗词网站

python爬虫爬取网页信息