python爬取网页数据并自动写入SQLserver数据库

阅读量：

如图所示, 某网站每日都会发布城市新建商品房可售、未售及签约的相关数据, 现在需要对这些信息进行提取, 并将其存储到数据库中。整个操作流程共包含两个主要环节: 第一部分是针对网页内容进行解析, 实现目标信息的提取; 第二部分则是建立与数据库的连接, 实现数据的存储功能。

一、数据爬取

在处理数据抓取时仍是一种较为常见的做法，
该网站界面设计非常友好，
无需担心其具备动态加载功能或其他反爬措施，
因此可以直接采用requests库与BeautifulSoup进行网页解析，并结合[select]元素（参考此处）的方法即可完成数据抓取。
需要注意的一点是，在完成数据提取后需将数据转换为元组格式。

复制代码

 import requests

    
 import time
    
 from bs4 import BeautifulSoup
    
 import pandas as pd
    
 import datetime
    
 import pymssql
    
  
    
 def doSth():
    
     # 定义解析网页的函数
    
     def get_html(url):
    
     res = requests.get(url)
    
     res.encoding = 'utf-8'
    
     soup = BeautifulSoup(res.text,'lxml')
    
     return soup 
    
  
    
     # 将数据爬取并打包成tuple格式  
    
     data_xj = []
    
     data_ks = []
    
     data_ws = []
    
     time = datetime.date.today() - datetime.timedelta(days=1) #获取昨天的日期
    
     yes_time_nyr = time.strftime('Y'+'%Y'+'M'+'%m')#月份格式
    
     soure_xj = '每日新建商品房签约信息'+str(time)
    
     soure_ks = '每日新建商品房可售信息'+str(time)
    
     soure_ws = '每日新建商品房未售信息'+str(time)
    
     http = 'http://www.gzcc.gov.cn/data/Category_177/Index.aspx'
    
     soup = get_html(http)
    
     
    
     #插入每日新建商品房签约信息
    
     items_xj = soup.select('table[class="resultTableD"]')[2]
    
     res_xj = items_xj.select('tr[bgcolor="#ffffff"]')
    
     for i in res_xj:
    
     data_xj.append((yes_time_nyr,time,soure_xj,)+tuple(i.text.split())[0:1]+('住宅',) + tuple(i.text.split())[1:3])
    
     data_xj.append((yes_time_nyr,time,soure_xj,)+tuple(i.text.split())[0:1]+('商业',) + tuple(i.text.split())[3:5])
    
     data_xj.append((yes_time_nyr,time,soure_xj,)+tuple(i.text.split())[0:1]+('办公',) + tuple(i.text.split())[5:7])
    
     data_xj.append((yes_time_nyr,time,soure_xj,)+tuple(i.text.split())[0:1]+('车位',) + tuple(i.text.split())[7:9])
    
     #data.append(tuple(i.text.split())[:1] +(time,)+ tuple(i.text.split())[1:])#将list中的每个元素转换为数组
    
     
    
     #每日新建商品房可售信息
    
     items_ks = soup.select('table[class="resultTableD"]')[0]
    
     res_ks = items_ks.select('tr[bgcolor="#ffffff"]')
    
     for j in res_ks:
    
     data_ks.append((yes_time_nyr,time,soure_ks,)+tuple(j.text.split())[0:1]+('住宅',) + tuple(j.text.split())[1:3])
    
     data_ks.append((yes_time_nyr,time,soure_ks,)+tuple(j.text.split())[0:1]+('商业',) + tuple(j.text.split())[3:5])
    
     data_ks.append((yes_time_nyr,time,soure_ks,)+tuple(j.text.split())[0:1]+('办公',) + tuple(j.text.split())[5:7])
    
     data_ks.append((yes_time_nyr,time,soure_ks,)+tuple(j.text.split())[0:1]+('车位',) + tuple(j.text.split())[7:9])
    
     
    
     #每日新建商品房未售信息
    
     items_ws = soup.select('table[class="resultTableD"]')[1]
    
     res_ws = items_ws.select('tr[bgcolor="#ffffff"]')
    
     for k in res_ws:
    
     data_ws.append((yes_time_nyr,time,soure_ws,)+tuple(k.text.split())[0:1]+('住宅',) + tuple(k.text.split())[1:3])
    
     data_ws.append((yes_time_nyr,time,soure_ws,)+tuple(k.text.split())[0:1]+('商业',) + tuple(k.text.split())[3:5])
    
     data_ws.append((yes_time_nyr,time,soure_ws,)+tuple(k.text.split())[0:1]+('办公',) + tuple(k.text.split())[5:7])
    
     data_ws.append((yes_time_nyr,time,soure_ws,)+tuple(k.text.split())[0:1]+('车位',) + tuple(k.text.split())[7:9])

二、连接数据库并写入数据

连接数据库需要用到pymssql包，如果需要安装，打开命令行：

复制代码

    pip install pymssql

这个包是专门用来进行数据库交互操作的，操作步骤分2步：

1、创建链接：使用connect()创建连接并获取Connection对象

2、数据库交互：从Connection对象中获取Cursor对象，并调用该Cursor对象的各项功能以实现数据库间的互动交流

3、关闭链接

复制代码

 #将数据写入数据库

    
     #连接数据库
    
     server = "服务器名，如果是本地数据库IP用127.0.0.1"
    
     user = "用户名"
    
     password = "密码"
    
     database = "数据库名"
    
     conn = pymssql.connect(server, user, password, database)
    
     cursor = conn.cursor()
    
     if not cursor:
    
     raise(NameError,"连接数据库失败")
    
     else:
    
     print('OK')
    
     #写入数据
    
     sql_xj = "INSERT INTO table1 ([年月],[日期],[来源],[区域],[类型],[套数],[面积]) VALUES (%s,%s,%s,%s,%s,%d,%d)"
    
     cursor.executemany(sql_xj, data_xj)
    
     sql_ks = "INSERT INTO table2 ([年月],[日期],[来源],[区域],[类型],[套数],[面积]) VALUES (%s,%s,%s,%s,%s,%d,%d)"
    
     cursor.executemany(sql_ks, data_ks)
    
     sql_ws = "INSERT INTO table3 ([年月],[日期],[来源],[区域],[类型],[套数],[面积]) VALUES (%s,%s,%s,%s,%s,%d,%d)"
    
     cursor.executemany(sql_ws, data_ws)
    
     # 如果没有指定autocommit属性为True的话就需要调用commit()方法
    
     conn.commit()
    
     print(time,'写入数据库成功')
    
     conn.close()#关闭数据库

全部评论 (0)

还没有任何评论哟~

python爬取网页数据并自动写入SQLserver数据库

如上图，某网站每天会公布城市的新建商品房可售、未售、签约情况，现在需要把这些数据获取下来，并写入数据库中。整个过程分为2大部分，第一部分是网页的解析，将目标信息获取，第二部分是数据库的连接，将数据存入...

node + mysql 爬取网页数据并写入数据库

思路： 1.从需要被爬的网站里获取数据 2.依据获取到的数据结构（字段）创建数据库表结构 3.创建数据表 4.插入数据前整理数据 5.将整理好的数据插入到数据库中 6.插入操作结束后关闭数据库连接或者...

Python爬取网页数据并写入Excel

刚才爬了一些数据，分享一下代码。本例是从Excel表从读取数据，运用到网页中进行搜索，再将结果写入Excel表中。 1.首先引入需要用到的包，没下载的在终端pipinstall一下例如：pipin...

python爬取网站数据并写入mysql数据库

爬取数据步骤： 1.发生送请求（Request） 1.请求方式： Get,Post 2.请求URL： URL全称“统一资源定位符” 如：一个网页版，一张图片。

weibo页面爬取并写入MongoDB数据库

跟着大佬学爬虫本次爬虫代码是根据崔庆才大佬书中内容完成的，在此感谢崔大，顺便记录一下自己的苦逼学习经历吧。如题，若要成功运行代码，请先安装MongoDB数据库。若实在是怕麻烦，那就自己改一哈代码，...

python爬虫数据写入excel_Python学习一: 使用Python爬取网页数据,并写入Excel文件

自学Python的时候,在网上看见一篇比较简单的爬虫小项目,于是自己便也想跟着别人的代码来学一下. 看着这位博主的代码敲的以下代码,基本上都一致. 第一部分:根据URL进行数据的爬取 coding:u...

python抓取网页数据并写入excel

大家好，给大家分享一下python爬虫抓取网页数据导出excel，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！ 1\.更新库的命令首先,我们要了解Python怎么更新库版本.这个大家都...

python抓取网页数据并写入excel

大家好，小编来为大家解答以下问题，一个有趣的事情，一个有趣的事情，现在让我们一起来看看吧！最近在做一项网关跑分测试，通过刷新网页去得到测试结果（测试结果在网页上面），这样每统计一次结果都要刷新一下页...

Python爬取网页数据并导入表格

我想将<http://wsb.wuhan.gov.cn/html/friendly/201602/t2016020345633.shtml这个网页里的表格数据用python爬取出来，并导入CSV表格文...

python爬取网页json数据_python爬取json数据库

手把手教你使用Python抓取QQ音乐数据第一弹【一、项目目标】获取QQ音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。由浅入深，层层递进，非常适合刚入门的同学练手。

是否确定退出登录?

python爬取网页数据并自动写入SQLserver数据库

一、数据爬取

二、连接数据库并写入数据

全部评论 (0)

相关文章推荐

python爬取网页数据并自动写入SQLserver数据库

node + mysql 爬取网页数据并写入数据库

Python爬取网页数据并写入Excel

python爬取网站数据并写入mysql数据库

weibo页面爬取并写入MongoDB数据库

python爬虫数据写入excel_Python学习一: 使用Python爬取网页数据,并写入Excel文件

python抓取网页数据并写入excel

python抓取网页数据并写入excel

Python爬取网页数据并导入表格

python爬取网页json数据_python爬取json数据库