python爬取学校学生信息网_使用python+selenium爬取学生信息并入库

阅读量：

通过学校的网站平台浏览了一些有用的信息。其中一项功能是提供各个学院所有年级学生的详细信息。

该页面大概如下

于是好奇的我就打算把所有信息抓取下来。

最初计划是利用 requests 和 Beautiful Soup 进行模拟抓取。然而，在上一步骤中，“下一页”被要求提交一个表单，请注意此表单中的参数值必须从当前页面获取。随后需要从当前页面获取相应的参数值，并将其传递到表单中进行提交操作。步骤繁琐且效率低下，并最终尝试多次均未成功完成

简单的介绍一下 selenium 吧。

selenium是一个用于Web应用自动化测试的核心优势平台，在现有的自动化测试工具中，其显著特点是支持多平台和跨浏览器兼容性。

支持windows、linux、MAC，支持ie、firefox、safari、opera、chrome等。

此外还有一个显著特点在于支持分散式测试案例的执行。例如，在不同测试设备上部署这些测试案例类似于分发机构能的作用

但是我把他玩成了一个爬虫。。。

一个简单的例子：

测试例子：

from selenium import webdriver

from selenium.common.exceptions import NoSuchElementException

from selenium.webdriver.common.keys import Keys

import time

browser = webdriver.Firefox() # Get local session of firefox

browser.get("http://www.yahoo.com") # Load page

assert "Yahoo!" in browser.title

elem = browser.find_element_by_name("p") # Find the query box

elem.send_keys("seleniumhq" + Keys.RETURN)

time.sleep(0.2) # Let the page load, will be added to the API

try:

browser.find_element_by_xpath("//a[contains(@href,'http://seleniumhq.org')]")

except NoSuchElementException:

assert 0, "can't find seleniumhq"

browser.close()

下面是我的爬取操作

图中的table标签附近的源代码大概是这样子的

学号

姓名

性别

班级

操作

...

所以要找到这个 table 可以用一下代码

table = driver.find_element_by_class_name('scontent')

取到这个 table 后，就可以用 table.text 获取到 table 上的所有字符串

对这些字符串进行一定的分析后，就可以入库了

然后就是要实现点击 “下一页 ”

“下一页”源代码如下：

观察到调用了JavaScript实现的一个功能，并且在后续操作中继续前进。为了在Selenium中模拟JavaScript的行为，请参考以下代码：

js = r"__doPostBack('ltNext','')"

driver.execute_script(js) # 执行js代码

完整的代码如下：

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

将selenium库中的异常处理模块中的TimeoutException和NoSuchElementException引入项目

import mysql.connector

def crawler():

driver = webdriver.Firefox()

driver.set_page_load_timeout(10)

driver.get(url) # 加载页面

conn = mysql.connector.connect(username='use', password='pwd', db_name='database', utf8mb4_unicode_aware=True) # 数据库的连接

cursor = conn.cursor()js = r"__doPostBack('ltNext','')" # “下一页” 的js源码

for temp in range(626): # 626为页码数

用于处理加载速度较快的情况：当快速加载时可能会找不到 table 标签。这种机制的主要原因是为了确保能够找到所需的 table 标签。建议在 sleep 一段时间后重新开始数据获取过程。

try:

table = driver.find_element_by_class_name('scontent')

except NoSuchElementException:

time.sleep(1)

table = driver.find_element_by_class_name('scontent')

finally:

while table is None:

time.sleep(0.1)

driver.find_element_by_class_name('scontent')

分析字符串的代码省略。。。

data 保存一个学号，姓名，性别，学院的数据。

for data in datas:

This SQL statement inserts records into the student table with regno, name, gender, and department details. The SQL code utilizes placeholders to input specific values for each attribute.

cursor.execute(sql)

if temp != 625:

driver.execute_script(js)

cursor.close()

conn.commit()

conn.close()

driver.close()

全部评论 (0)

还没有任何评论哟~

python爬取学校学生信息网_使用python+selenium爬取学生信息并入库

在学校的网站上发现了一些有趣的东西，就是能看到同年级的所有学院学生的信息。该页面大概如下于是好奇的我就打算把所有信息抓取下来。一开始我打算使用requests\+BeautifulSoup进行模...

使用python+selenium爬取学生信息并入库

在学校的网站上发现了一些有趣的东西，就是能看到同年级的所有学院学生的信息。该页面大概如下于是好奇的我就打算把所有信息抓取下来。一开始我打算使用requests+BeautifulSoup进行模拟...

python爬取学校学生信息_使用Python爬取学校学生信息！（简单爬虫）

很久木有来写博文啦，发现学校的教务系统很多童鞋都木有修改初始密码，于是博主就想写试用python写一个爬虫小脚本，将木有修改初始密码的童鞋资料扒下来，然后嘿嘿嘿通知他们修改！鉴于写博文时未通知这些受...

使用Python爬取学校学生信息！（简单爬虫）

学信网高校信息爬取

代码学习这是学信网高校信息爬取的代码（python）,写的不好，请大家多多包涵并指教，最近比较忙，注释和代码的优化以后有时间再搞。 importrequests爬虫库 frombs4importBe...

Python + selenium 爬取网页信息

最近需要从网页上找一些有用的信息，就简单用python爬了一下。网上方法有很多，request，BeautifulSoup，selenium，Scrapy等等。

使用python爬取某专科学校官方信息

importcsv importos importre importtime fromurllib.parseimporturljoin frombs4importBeautifulSoupasbs ...

利用Python爬取学校信息门户新闻并存入数据库

任务：利用Python爬虫的相关知识爬取学校信息门户并将数据存入数据库中用到并且需要掌握的Python第三方库 importrequests frombs4importBeautifulSoup i...

Python学习（爬取信息1）

0\.前言本部分为爬虫自学教程 1\.代码部分 1、爬取信息（学习） importrequests（模块） importbs4（未安装模块） res=requests.gethttps://movi...

python学习之使用selenium爬取豆瓣图书信息

使用selenium爬取豆瓣图书信息 fromseleniumimportwebdriver fromselenium.webdriver.common.byimportBy fromselenium...

是否确定退出登录?

python爬取学校学生信息网_使用python+selenium爬取学生信息并入库

分析字符串的代码省略。。。

data 保存一个 学号， 姓名， 性别， 学院 的 数据。

全部评论 (0)

相关文章推荐

python爬取学校学生信息网_使用python+selenium爬取学生信息并入库

使用python+selenium爬取学生信息并入库

python爬取学校学生信息_使用Python爬取学校学生信息！（简单爬虫）

使用Python爬取学校学生信息！（简单爬虫）

学信网高校信息爬取

Python + selenium 爬取网页信息

使用python爬取某专科学校官方信息

利用Python爬取学校信息门户新闻并存入数据库

Python学习（爬取信息1）

python学习之使用selenium爬取豆瓣图书信息

data 保存一个学号，姓名，性别，学院的数据。