爬取学校新闻网站文章

阅读量：

该文本描述了从学校新闻网站爬取文章的完整流程，包括获取新闻目录、提取文章URL及标题、根据日期限制范围、从每篇文章获取其他信息（如作者、正文、浏览数）以及存入数据库。文本中提到在Chrome检查功能中发现新闻浏览数显示但无法爬取，最终发现是Ajax请求问题，并使用pandas库处理。摘要需简洁概括核心内容。

爬取学校新闻网站文章

爬取思路
遇到的问题

爬取思路

第一步，用requests获取新闻目录的网页源码。

复制代码

    def get_page(url):   #页面源代码
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print("Fail to get page")
        
    url = "http://news.fzu.edu.cn/html/fdyw/" + str(offset) + ".html"
    html = get_page(url)

第二步，获取每一篇文章的url，并先提取日期、标题

复制代码

    def get_articles(html, new_list):
    doc = pq(html)
    articles = doc('.list_main_content li')
    
    get_articles(html, new_list)

第三步，通过日期限制爬取范围，并对每一则新闻的url发起get请求

复制代码

    if new["date"][:4] == "2020":   #只爬2020年
     new["title"] = article('a').text()  #标题
     url = 'http://news.fzu.edu.cn' + article('a').attr('href')
     html_new = get_page(url)
     get_other_data(html_new, new)
     new_list.append(new)
    elif new["date"][:4] == "2021":
     continue
    else:
     global flag
     flag = 1
     return

第四步，在每则新闻网页的源代码中获取剩下的信息，即作者、正文、浏览数

复制代码

    def get_other_data(html, new):
    doc = pq(html)
    data = doc('.detail_main_content')
    
    author = data('#author').text()  #作者
    new["author"] = author
    
    page_views_str = data('script').text()  #阅读数
    a1 = page_views_str.find("url")
    a2 = page_views_str.find("timeout")
    page_views_url = page_views_str[a1 + 5:a2 - 2]
    page_views_url = "http://news.fzu.edu.cn" + page_views_url
    page_views = requests.post(page_views_url).text
    new["page_views"] = page_views
    
    content = ""    #正文
    paragraphs = doc('#news_content_display')
    for p in paragraphs('p').items():
        content += p.text() + "\n"
    new["content"] = content

第五步，存入数据库

复制代码

    db = pymysql.connect(host='localhost', user='root', password='beli3579', port=3306, db='fzu_new')
    cursor = db.cursor()
    cursor.execute("DROP TABLE IF EXISTS news")
    sql = '''create table news(
        date varchar(20),
        title varchar(70),
        author varchar(50),
        page_views varchar(20),
        content varchar(3000)
    )'''
    cursor.execute(sql)
    for new in new_list:
      sql = 'insert into news(date,title,author,page_views,content) values(%s,%s,%s,%s,%s)'
      try:
          if cursor.execute(sql, tuple(new.values())):
            print('Success to the database')
            db.commit()
      except:
            print('Fail to the database')
            db.rollback()
    db.close()

遇到的问题

在使用Chrome的检查功能时，能够显示新闻的浏览数据，但无法获取完整的新闻内容。经过分析，问题源于该新闻内容采用了Ajax请求方式。

全部评论 (0)

还没有任何评论哟~

爬取学校新闻网站文章

爬取学校新闻网站文章爬取思路遇到的问题爬取思路第一步，用requests获取新闻目录的网页源码。 defgetpageurl:页面源代码 response=requests.geturl,he...

爬取学校新闻网站信息

coding:UTF8 importrequests frombs4importBeautifulSoup importjson importurllib importrequest ifname==...

Python爬虫爬取网站新闻

网站分析为了方便爬取，所以选择了手机版的简版网易新闻网址。获取新闻链接列表的网址为<http://3g.163.com/touch/article/list/BA8J7DG9wangning/14...

python3爬取新闻网站的所有新闻-新手起步_python3爬取新闻网站的所有新闻-新手起步...

该篇文章适用于新手，让大家在刚接触爬虫的时候少踩点坑。作者接触python也有几个月时间了，最近要用python做数据采集的工作，因此要用爬虫去爬取各大门户网站。好了，废话不多说，直接切入正题。声...

python爬取军事新闻网站

使用了requests和BeautifulSoup库文档地址:requests bs4 !usr/bin/python coding:utf8 https://mil.news.sina.com....

python爬取新闻网站内容,python爬取新闻内容报告

大家好，小编为大家解答python爬取新闻网站内容的问题。很多人还不知道python爬取新闻内容报告，现在让我们一起来看看吧！在本篇博客中，我们将使用urllib+正则表达式爬取指定页面的新闻内容，...

python爬取新闻网站内容,python爬取新闻内容报告

本篇文章给大家谈谈python爬取新闻网站内容，以及python爬取新闻内容报告，希望对各位有所帮助，不要忘了收藏本站喔。【背景】今天使用Scrapy来爬取某网站热点新闻，因可能的版权原因，里面的...

python爬取新闻网站内容,python爬取新闻内容报告

大家好，小编来为大家解答以下问题，python爬取新闻网站内容，python爬取新闻内容报告，现在让我们一起来看看吧！ Sourcecodedownload:本文相关源码文章目录前言一、基本目标...

python爬取新闻网站内容,python爬取新闻内容报告

大家好，本文将围绕python爬取新闻网站内容展开说明，python爬取新闻内容报告是一个很多人都想弄明白的事情，想搞清楚python爬取新闻内容代码需要先了解以下几个事情。

python爬取百度新闻数据,python爬取新闻网站内容

大家好，本文将围绕python爬取百度新闻数据展开说明，python爬取新闻网站内容是一个很多人都想弄明白的事情，想搞清楚python爬取文章内容需要先了解以下几个事情。

是否确定退出登录?

爬取学校新闻网站文章

爬取学校新闻网站文章

爬取思路

遇到的问题

全部评论 (0)

相关文章推荐

爬取学校新闻网站文章

爬取学校新闻网站信息

Python爬虫爬取网站新闻

python3爬取新闻网站的所有新闻-新手起步_python3爬取新闻网站的所有新闻-新手起步...

python爬取军事新闻网站

python爬取新闻网站内容,python爬取新闻内容报告

python爬取新闻网站内容,python爬取新闻内容报告

python爬取新闻网站内容,python爬取新闻内容报告

python爬取新闻网站内容,python爬取新闻内容报告

python爬取百度新闻数据,python爬取新闻网站内容