Python3爬取网页数据存入MySQL

阅读量：

不太会用这个编辑器，就把word截图过来了….

复制代码

    from bs4 import BeautifulSoup
    import urllib.request
    import ssl #导入ssl认证东西
    import time
    import random
    import mysql.connector
    
    print('connect to mysql...')
    conn = mysql.connector.connect(host='localhost', user='root', passwd='dongxue0123', db='mysql',
                                                   port=3306, charset='utf8')
    print("connected!")
    cursor = conn.cursor()
    cursor.execute("DROP TABLE IF EXISTS COMMM")
    sql = """CREATE TABLE COMMM(
                           school_name char(255) NOT NULL ,
                           teacher_name char(255) NOT NULL ,
                           comm_date char(255),
                           commm char(255),
                           index(teacher_name))"""
    cursor.execute(sql)
    
    ssl._create_default_https_context = ssl._create_unverified_context #访问https证书失败，加上全局取消认证
    
    url="https://www.mysupervisor.org/viewforum.php?f=115&sid=9867c9c03c1efefa23dafda9e7d61d07"
    keep_request=True   #while_true=True 变量命名更清晰点
    while keep_request:
    try:
        page = urllib.request.urlopen(url, timeout=10).read()
        keep_request = False
        main = BeautifulSoup(page, "html.parser")
        # print(school.title.string)
    except:
        print("reconnect to web..")  #print("重新连接")
        time.sleep(1)
    
    for school_list in main.find_all('li',class_="row"):
    x = 10 * random.random()
    #print(x)
    time.sleep(x)
    
    #print(i.a.string) #输出学院名字，即输出标签中字符串
    half_school_link=school_list.a.get('href')  #得到标签中href中的内容
    schlool_link="https://www.mysupervisor.org"+half_school_link.strip('.') #link为每个学院网址
    #print(schlool_link)
    
    url1 = schlool_link
    keep_request = True
    while keep_request:
        try:
            page1 = urllib.request.urlopen(url1, timeout=20).read()
            keep_request = False
            school = BeautifulSoup(page1, "html.parser")
            #print(school.title.string)
        except:
            #print("reconnect..")
            time.sleep(1)
    #################开始访问每个老师###############
    for teacher_list in school.find_all('dl', class_="icon"):
        count = teacher_list.dd.get_text()  ######这是老师评论数量
    
        if (count[0] != '0'):  ###########如果评论数量不为零才可以输出
            #print(i.a.string, j.a.string)
    
            half_name_link = teacher_list.a.get('href')
            name_link = "https://www.mysupervisor.org" + half_name_link.strip('.')
            # print(name_link)
    
            url2 = name_link
            keep_requestt = True
            while keep_requestt:
                try:
                    page2 = urllib.request.urlopen(url2, timeout=20).read()
                    keep_requestt = False
                    soup2 = BeautifulSoup(page2, "html.parser")
                    #print(soup2.title.string)
                except:
                    #print("reconnect..")
                    time.sleep(1)
    
            for k in soup2.find_all('div', class_='inner'):
                if k.find(class_="postprofile") or k.find(class_="content"):
                    datee = k.find(class_="postprofile").get_text().strip()
                    # .get_text()/.string有什么区别
                    date = datee[11:]
                    comment = k.find(class_="content").get_text().strip()
                    print(school_list.a.get_text(), teacher_list.a.get_text() , date, comment)
    
    
                    conn = mysql.connector.connect(host='localhost', user='root', passwd='dongxue0123', db='mysql',
                                                   port=3306, charset='utf8')
                    cursor = conn.cursor()
                    if len(comment)>255:
                        comment=comment[:255]
    
                    insert_commm=("insert into COMMM(school_name,teacher_name,comm_date,commm)" "VALUE (%s,%s,%s,%s)")
                    data_commm=(school_list.a.get_text(), teacher_list.a.get_text(),date, comment)
                    cursor.execute(insert_commm,data_commm)
    
                    #cursor.execute('insert into mysql(school, name_, date_,comment) value(%s,%s,%s,%s)',(i.a.string, j.a.string,date, comment))
                    conn.commit()
                    #print("finish!")
    
                    #cursor.close()
                    #conn.close()
                # 解决游客+时间问题，datee输出为一个游客与时间的长字符串
                # 只需截取时间，用到字符串的截取
    cursor.close()
    conn.close()

全部评论 (0)

还没有任何评论哟~

Python3爬取网页数据存入MySQL

不太会用这个编辑器，就把word截图过来了…. frombs4importBeautifulSoup importurllib.request importssl导入ssl认证东西 importtim...

python3 爬取网页内容解析并存入MySQL数据库

爬取网页内容解析并存入MySQL数据库用到的第三方库： BeautifulSoup：解析网页内容，建议安装方法： pipinstallbeautifulsoup4 pymysql：操作数据库，建议安...

Python3-网页爬取-批量爬取贴吧页面数据

批量爬取贴吧页面数据网页抓取汉字转码、多个参数拼接第1页：https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=...

python爬虫之爬取掘金网首页存入mysql数据库

博主是个前端小白，最近在学习爬虫，写个实战系列也是想记录自己学习的过程，以便后续回顾欢迎大家一起交流学习、共同进步这篇文章达成的效果是爬掘金网的首页的数据存到mysql数据库里做这个实战你需要具...

【数据库】python3中将网页爬虫数据存储到mysql数据库

前两篇文章都在说在py中用BeautfulSoup爬取本地网页的事情，本来准备去真实网页试一下的，但是老林说不如把你之前学的mysql数据库温习一下，顺道学着把你现在爬到的网页存取到mysql数据库之...

Python3读取Excel数据存入MySQL

Python是数据分析的强大利器。利用Python做数据分析，第一步就是学习如何读取日常工作中产生各种excel报表并存入数据中，方便后续数据处理。这里向大家分享python3如何使用xlrd读取...

node + mysql 爬取网页数据并写入数据库

思路： 1.从需要被爬的网站里获取数据 2.依据获取到的数据结构（字段）创建数据库表结构 3.创建数据表 4.插入数据前整理数据 5.将整理好的数据插入到数据库中 6.插入操作结束后关闭数据库连接或者...

Python3爬虫：selenium模拟登录获取cookie提取数据，存入数据库MySQL

selenium模拟登录获取cookie提取数据 Python3爬虫 selenium模拟登录获取数据连接数据库MYSQL 插入数据定时执行从模拟登录保存cookie，数据存入数据库，设置定时执...

python3爬虫系列09之爬虫数据存入MySQL数据库

python3爬虫系列09之爬虫数据存入MySQL数据库 1\.前言在上一篇当中呢，python3爬虫系列08之新版动态智联爬虫，我们已经把智联招聘的某地区，某岗位，某页数的所有数据爬下来了，然后保...

scrapy爬取数据存入mysql中

1、Pipeline： 2、settings中： 3、items中： 4、spider中：

是否确定退出登录?

Python3爬取网页数据存入MySQL

全部评论 (0)

相关文章推荐

Python3爬取网页数据存入MySQL

python3 爬取网页内容解析并存入MySQL数据库

Python3-网页爬取-批量爬取贴吧页面数据

python爬虫之爬取掘金网首页存入mysql数据库

【数据库】python3中将网页爬虫数据存储到mysql数据库

Python3读取Excel数据存入MySQL

node + mysql 爬取网页数据并写入数据库

Python3爬虫：selenium模拟登录获取cookie提取数据，存入数据库MySQL

python3爬虫系列09之爬虫数据存入MySQL数据库

scrapy爬取数据存入mysql中