python --爬虫爬取学校官网新闻并下载到本地

阅读量：

IDE：jupyter Notebook
python version：python 3.6

目标数据：学校官网新闻（一页）
网址：** ***

使用到的库：requests urllib re BeautifulSoup os parse
( 我使用的是Anaconda3,所以一般常用的库都不需要额外来安装 )
( 如需安装：pip install <库名> ）

思路：

1，获取目标网站源代码
2，从源代码中获取新闻超链接
3，通过新闻超链接获取内文
4，保存到本地 *

开工：

import requests
import urllib
import re
import os
from bs4 import BeautifulSoup
from urllib import parse

复制代码

    #1.获取网站源代码
    respones = requests.get('http://**********/')
    respones.encoding = 'utf-8'
    html = respones.text
    #获取网页源代码
    #print(html)
    #使用BeautifulSoup 解析网页
    soup = BeautifulSoup(html,'html.parser')
    
    #2.获取文章超链接
    #req 定义匹配规则
    req = r'<li class="line">.*?<a href="(.*?)" target="_blank" title="(.*?)">.*?<span>.*?</span>.*?<font>(.*?)</font>.*?</a>.*?</li>'
    #提升匹配效率
    req = re.compile(req,re.S)
    #findall 匹配模式
    result = re.findall(req,html)
    #使用for 循环分离新闻超链接和新闻标题
    for url in result:
    res = (url)
    
    #不带主域名的url的连接##
    url = parse.urljoin(response.url,res[0])
    
    #新闻标题
    title = res[1]
    #print(url,title)
    # 3获取新闻内容
    
    # 获取新闻内容源代码
    chapt_html = requests.get(url)
    chapt_html.encoding = 'uft-8'
    html1 = chapt_html.text
    soup1 = BeautifulSoup(html1,'html.parser')
    #print(html1)
    #获取文章内文
    content1 = soup1.select('#textbody')
    content = content1[0].text
    #print(content)
    
    #4 保存到本地
    
    #用标题显示下载进程
    print("正在下载:%s"%title)
    
    #下载新闻
    #编码问题：定义目标文件的编码，使编码保持一致
    f = open('{}.txt'.format(title),'w',encoding = 'utf-8')
    f.write(content)
    f.close()

遇到的问题：

复制代码

             1.抓取新闻超链接时，得到的是不带主域名的url

解决方法：

复制代码

        1.导入urllib的parse
        2.调用parse.urljoin()进行拼接
        from urllib import parse
        url = parse.urljoin(response.url, get_url)
    #其中response.url会自动提取出当前页面url的主域名，get_url是从response中的元素中提取的没有主域名的url

原文链接：
爬虫——response中获取的不带主域名的url的拼接

复制代码

            2.保存到本地时出现的乱码问题

解决办法：

复制代码

                2.统一文件的编码

原文链接：
编码问题（原标题太长…）

全部评论 (0)

还没有任何评论哟~

python --爬虫爬取学校官网新闻并下载到本地

IDE：jupyterNotebook pythonversion：python3.6 目标数据：学校官网新闻（一页）网址：使用到的库：requestsurllibreBeautifulSoupo...

python爬取学校新闻_利用Python网络爬虫爬取学校官网十条标题

原博文 2018032714:00− 利用Python网络爬虫爬取学校官网十条标题案例代码：author:Jdate:20180306导入需要用到的库文件importurllib.requestimp...

python爬取新闻并汇总_【python】爬虫-爬取新闻

最近，在数据挖掘课，要交课设了，打算做一个通过机器学习进行新闻分类，首先要有大量的文本新闻，去做训练，并通过爬虫爬取大量的新闻一，思路如下： 0.首先确定获取数据的网站 1.通过BeautifulS...

【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地

这个实验主要爬取新闻网站首页的新闻内容保存到本地，爬取内容有标题、时间、来源、评论数和正文。工具：python 3.6 谷歌浏览器爬取过程：一、安装库：urllib、requests、Be...

python爬取新闻网站内容findall函数爬取_【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地...

这个实验主要爬取新闻网站首页的新闻内容保存到本地，爬取内容有标题、时间、来源、评论数和正文。工具：python3.6谷歌浏览器爬取过程：一、安装库：urllib、requests、Beautif...

爬虫python 新闻,Python爬虫实例--爬取人民网新闻

其实我只是因为在那边评论区想评论，然后发现位置不够，所以才打算写这个博客的，然后具体的可以看我转载的文章，很详细，我这边只说一下关于txt转换为JSON格式的问题第一次写，格式可能很乱，见谅一下话...

Python爬虫爬取网站新闻

网站分析为了方便爬取，所以选择了手机版的简版网易新闻网址。获取新闻链接列表的网址为<http://3g.163.com/touch/article/list/BA8J7DG9wangning/14...

爬虫python 新闻_Python 爬虫（爬取腾讯新闻）

趁热打铁，再来爬一下TX的网站科技腾讯网。腾讯新闻的科技板块，至于为什么爬这个板块？我们要做新时代的科技少年😂😂😂。闲话少叙，快上车。一、分析网页代码打开网页并进入调试模式，可以看的我们要爬...

python爬虫爬取ithome的新闻存储到本地数据库

爬IT之家首页的新闻，并读取每篇新闻，并将新闻存到本地数据库。效率不是很高，请求各位大神指点。 frombs4importBeautifulSoup importurllib.request imp...

python爬虫新闻爬取

暂无描述

是否确定退出登录?

python --爬虫爬取学校官网新闻并下载到本地

全部评论 (0)

相关文章推荐

python --爬虫爬取学校官网新闻并下载到本地

python爬取学校新闻_利用Python网络爬虫爬取学校官网十条标题

python爬取新闻并汇总_【python】 爬虫-爬取新闻

【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地

python爬取新闻网站内容findall函数爬取_【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地...

爬虫python 新闻,Python爬虫实例--爬取人民网新闻

Python爬虫爬取网站新闻

爬虫python 新闻_Python 爬虫（爬取腾讯新闻）

python爬虫爬取ithome的新闻存储到本地数据库

python爬虫新闻爬取

python爬取新闻并汇总_【python】爬虫-爬取新闻