Python爬虫：爬取小说并存储到数据库

阅读量：

爬取小说网站的小说，并保存到数据库

第一步：先获取小说内容

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2,re domain = 'http://www.quanshu.net' headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36" } def getTypeList(pn = 1 ): #获取分类列表的函数 req = urllib2.Request( 'http://www.quanshu.net/map/%s.html' % pn) #实例将要请求的对象 req.headers = headers #替换所有头信息 #req.add_header() #添加单个头信息 res = urllib2.urlopen(req) #开始请求 html = res.read().decode( 'gbk' ) #decode解码，解码成Unicode reg = r '<a href="(/book/.*?)" target="_blank">(.*?)</a>' reg = re. compile (reg) #增加匹配效率正则匹配返回的类型为List return re.findall(reg,html) def getNovelList(url): #获取章节列表函数 req = urllib2.Request(domain + url) req.headers = headers res = urllib2.urlopen(req) html = res.read().decode( 'gbk' ) reg = r '<li><a href="(.*?)" title=".*?">(.*?)</a></li>' reg = re. compile (reg) return re.findall(reg,html) def getNovelContent(url): #获取章节内容 req = urllib2.Request(domain + url) req.headers = headers res = urllib2.urlopen(req) html = res.read().decode( 'gbk' ) reg = r 'style5\(\);</script>(.*?)<script type="text/javascript">style6\(\)' return re.findall(reg,html)[ 0 ] if __name__ = = '__main__' : for type in range ( 1 , 10 ): for url,title in getTypeList( type ): for zurl,ztitle in getNovelList(url): print u '正则爬取----%s' % ztitle content = getNovelContent(url.replace( 'index.html' ,zurl)) print content break break

执行后结果如下：

第二步：存储到数据库

1、设计数据库

1.1 新建库：novel

1.2 设计表：novel

1.3 设计表：chapter

并设置外键

2、编写脚本

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2,re import MySQLdb class Sql( object ): conn = MySQLdb.connect(host = '192.168.19.213' ,port = 3306 ,user = 'root' ,passwd = 'Admin123' ,db = 'novel' ,charset = 'utf8' ) def addnovels( self ,sort,novelname): cur = self .conn.cursor() cur.execute( "insert into novel(sort,novelname) values(%s , '%s')" % (sort,novelname)) lastrowid = cur.lastrowid cur.close() self .conn.commit() return lastrowid def addchapters( self ,novelid,chaptername,content): cur = self .conn.cursor() cur.execute( "insert into chapter(novelid,chaptername,content) values(%s , '%s' ,'%s')" % (novelid,chaptername,content)) cur.close() self .conn.commit() domain = 'http://www.quanshu.net' headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36" } def getTypeList(pn = 1 ): #获取分类列表的函数 req = urllib2.Request( 'http://www.quanshu.net/map/%s.html' % pn) #实例将要请求的对象 req.headers = headers #替换所有头信息 #req.add_header() #添加单个头信息 res = urllib2.urlopen(req) #开始请求 html = res.read().decode( 'gbk' ) #decode解码，解码成Unicode reg = r '<a href="(/book/.*?)" target="_blank">(.*?)</a>' reg = re. compile (reg) #增加匹配效率正则匹配返回的类型为List return re.findall(reg,html) def getNovelList(url): #获取章节列表函数 req = urllib2.Request(domain + url) req.headers = headers res = urllib2.urlopen(req) html = res.read().decode( 'gbk' ) reg = r '<li><a href="(.*?)" title=".*?">(.*?)</a></li>' reg = re. compile (reg) return re.findall(reg,html) def getNovelContent(url): #获取章节内容 req = urllib2.Request(domain + url) req.headers = headers res = urllib2.urlopen(req) html = res.read().decode( 'gbk' ) reg = r 'style5\(\);</script>(.*?)<script type="text/javascript">style6\(\)' return re.findall(reg,html)[ 0 ] mysql = Sql() if __name__ = = '__main__' : for sort in range ( 1 , 10 ): for url,title in getTypeList(sort): lastrowid = mysql.addnovels(sort, title) for zurl,ztitle in getNovelList(url): print u '正则爬取----%s' % ztitle content = getNovelContent(url.replace( 'index.html' ,zurl)) print u '正在存储----%s' % ztitle mysql.addchapters(lastrowid,ztitle,content)

3、执行脚本

4、查看数据库

可以看到已经存储成功了

。

报错：

_mysql_exceptions.OperationalError: (1364, "Field 'novelid' doesn't have a default value")

解决： 执行sql语句

SELECT @@GLOBAL.sql_mode;

SET @@GLOBAL.sql_mode="NO_ENGINE_SUBSTITUTION";

报错参考：http://blog.sina.com.cn/s/blog_6d2b3e4901011j9w.html

本文转自M四月天 51CTO博客，原文链接：http://blog.51cto.com/msiyuetian/1931102，如需转载请自行联系原作者

全部评论 (0)

还没有任何评论哟~

Python爬虫：爬取小说并存储到数据库

爬取小说网站的小说，并保存到数据库第一步：先获取小说内容 1234567891011121314151617181920212223242526272829303132333435363738394...

Python爬虫之爬取笔趣阁小说下载到本地文件并且存储到数据库

学习了python之后，接触到了爬虫，加上我又喜欢看小说，所以就做了一个爬虫的小程序，爬取笔趣阁小说。程序中一共引入了以下几个库： importrequests importmysql.connec...

Python 爬虫：爬取雪球股票数据并存储到 MySQL 数据库

一、项目概述与结果展示本文将通过Python实现一个爬虫项目，爬取雪球网的股票列表数据并将其存入MySQL数据库。你将学习到如何用requests发送HTTP请求获取数据，并用pymysql操作数据...

Python爬虫实战 | (11) 爬取网络小说并存入MongoDB数据库

之前在Python爬虫实战2中我们曾爬取过网络小说，本篇博客的爬取解析过程和之前几乎完全一样，不同的是数据存储方式，之前是存储到文件中csv,txt,json,excel等，这次我们将提取的小说存储到...

Python爬虫爬取网页数据并存储（一）

Python爬虫爬取网页数据并存储（一）环境搭建爬虫基本原理 urllib库使用 requests库使用正则表达式一个示例环境搭建 1.需要事先安装anaconda（或Python3.7）和...

python爬取小说（三）数据存储

由于时间关系，我们先把每章的内容存储到数据库。需要用到sqlite，接着上一篇，在原基础上修改代码如下： coding:utf8 importurllib.request importbs4 im...

python 爬虫 xpath 存储到数据库

参考安装lxml库 importpymysql importrequests fromlxmlimportetree defgetmoviespage: url=https://www.xinpia...

python爬取数据并存到excel,python爬虫保存数据

大家好，小编来为大家解答以下问题，python爬取的数据怎么将其放入excel文件里，python将爬取的数据保存在哪个文件夹，今天让我们一起来看看吧！文章目录前言存储数据的方式存储数据的基础...

python爬取数据并存到excel,python爬虫保存数据

大家好，小编为大家解答python爬取的数据怎么将其放入excel文件里的问题。很多人还不知道python将爬取的数据保存在哪个文件夹，现在让我们一起来看看吧！ Sourcecodedownload:...

是否确定退出登录?

Python爬虫：爬取小说并存储到数据库

全部评论 (0)

相关文章推荐

Python爬虫：爬取小说并存储到数据库

Python爬虫之爬取笔趣阁小说下载到本地文件并且存储到数据库

Python 爬虫：爬取雪球股票数据并存储到 MySQL 数据库

Python爬虫实战 | (11) 爬取网络小说并存入MongoDB数据库

Python爬虫爬取网页数据并存储（一）

python爬取小说（三）数据存储

python 爬虫 xpath 存储到数据库

python爬取数据并存到excel,python爬虫保存数据

python爬取数据并存到excel,python爬虫保存数据

python爬取数据并存到excel,python爬虫保存数据