weibo页面爬取并写入MongoDB数据库

阅读量：

跟着大佬学爬虫

本项目采用崔庆才先生著作作为爬虫代码的基础依据，在此次感谢崔庆才先生的同时作为对自己学习历程的一种总结与反思。

题目是：若要使代码顺利运行，请先安装MongoDB数据库。实在懒得费周折的话，则可以选择自行调整代码逻辑，并将修改后的内容保存至本地文本文件也可行。

这次爬虫虽是依照书本内容进行的,然而当我严格按照书本所言去运行时仍出现错误.经过一番调试排查才发现问题根源在于服务器端返回的数据格式发生了变化.这并不奇怪嘛?毕竟那本书上的代码已经用了相当长的时间啦.最后通过调整部分参数终于解决了问题.

注意事项：

在构建URL的过程中，在页面采用了Ajax技术的情况下，我们利用Chrome开发者工具进行了XHR过滤处理，从而能够实现找出真正请求的页面URL

然后就是仔细观察响应内容格式，做好内容解析和提取

最后，写入到数据库

完整代码：

复制代码

 """Ajax:微博前十页面爬取"""

    
 import time
    
 from urllib.parse import urlencode
    
 from pyquery import PyQuery as Pq
    
 import requests
    
 from pymongo import MongoClient
    
  
    
 # 基本URL，代表前半部分
    
 base_url = 'https://m.weibo.cn/api/container/getIndex?'
    
 # 构造请求头，page是可变参数
    
 headers = {
    
 	'Host': 'm.weibo.cn',
    
 	'Referer': 'https://m.weibo.cn/u/2830678474',
    
 	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
    
 	              '(KHTML, like Gecko) Chrome/66.0.3359.170 Safari/537.36',
    
 	'X-Requested-With': 'XMLHttpRequest',
    
 }
    
  
    
  
    
 def get_page(page):
    
 	"""页面请求函数"""
    
 	params = {
    
 		'type': 'uid',
    
 		'value': '2830678474',
    
 		'containerid': '1076032830678474',
    
 		'page': page,
    
 	}
    
 	# 使用urlencode()方法将参数转化为URL的GET请求参数，类似a='1'&b='2'&c='3'形式，然后拼接到一起
    
 	url = base_url + urlencode(params)
    
 	print(url)
    
 	# 提供异常捕捉,并发送请求，判断响应是否成功(status_code==200)?
    
 	try:
    
 		response = requests.get(url, headers=headers)
    
 		if response.status_code == 200:
    
 			return response.json()
    
 	except requests.ConnectionError as e:
    
 		print('Error:', e.args)
    
  
    
  
    
 def parse_page(json):
    
 	"""页面解析函数"""
    
 	if json:
    
 		items = json.get('data').get('cards')
    
 		# 分析json格式发现，偶数元素才包含mblog，所以判断mblog是否存在
    
 		# 再执行下面的操作
    
 		for item in items:
    
 			item = item.get('mblog')
    
 			if item == None:
    
 				pass
    
 			else:
    
 				weibo = {}
    
 				weibo['id'] = item.get('id')
    
 				weibo['text'] = Pq(item.get('text')).text()
    
 				weibo['attitudes'] = item.get('attitudes_count')
    
 				weibo['comments'] = item.get('comments_count')
    
 				weibo['reports'] = item.get('reposts_count')
    
 				yield weibo
    
  
    
  
    
 # 数据库操作初始化
    
 client = MongoClient(host='localhost', port=27017)
    
 db = client['weibo']
    
 collection = db['weibo']
    
  
    
  
    
 def save_to_mgdb(result):
    
 	"""信息写入到Mongo数据库"""
    
 	if collection.insert(result):
    
 		print('Saved to Mongo')
    
  
    
  
    
 if __name__ == '__main__':
    
 	for page in range(0, 5):
    
 		json = get_page(page)
    
 		time.sleep(1)
    
 		results = parse_page(json)
    
 		for result in results:
    
 			save_to_mgdb(result)

全部评论 (0)

还没有任何评论哟~

weibo页面爬取并写入MongoDB数据库

跟着大佬学爬虫本次爬虫代码是根据崔庆才大佬书中内容完成的，在此感谢崔大，顺便记录一下自己的苦逼学习经历吧。如题，若要成功运行代码，请先安装MongoDB数据库。若实在是怕麻烦，那就自己改一哈代码，...

node + mysql 爬取网页数据并写入数据库

思路： 1.从需要被爬的网站里获取数据 2.依据获取到的数据结构（字段）创建数据库表结构 3.创建数据表 4.插入数据前整理数据 5.将整理好的数据插入到数据库中 6.插入操作结束后关闭数据库连接或者...

python爬取网页数据并自动写入SQLserver数据库

如上图，某网站每天会公布城市的新建商品房可售、未售、签约情况，现在需要把这些数据获取下来，并写入数据库中。整个过程分为2大部分，第一部分是网页的解析，将目标信息获取，第二部分是数据库的连接，将数据存入...

Python爬取网页数据并写入Excel

刚才爬了一些数据，分享一下代码。本例是从Excel表从读取数据，运用到网页中进行搜索，再将结果写入Excel表中。 1.首先引入需要用到的包，没下载的在终端pipinstall一下例如：pipin...

爬虫笔记14——爬取网页数据写入MongoDB数据库，以爱奇艺为例

下载MongoDB数据库首先，需要下载MongoDB数据库，下载的话比较简单，直接去官网找到想要的版本下载即可，具体安装过程可以看这里。 pycharm下载pymongo库 pipinstallpy...

Java爬取页面数据导入数据库

建立实体类连接数据库 packageutil; importjava.sql.Connection; importjava.sql.DriverManager; importjava.sql.SQL...

爬取李开复博客并导入mongodb数据库

实验目的 l掌握使用Scrapy等爬虫工具编写爬虫程序的基本思路； l掌握抓取列表+详情的静态组合页面的方法 2.实验要求 1.抓取目标。可以选择以下网站作为抓取目标，也可以自行寻找自己感兴趣的抓取目...

python爬取网站数据并写入mysql数据库

爬取数据步骤： 1.发生送请求（Request） 1.请求方式： Get,Post 2.请求URL： URL全称“统一资源定位符” 如：一个网页版，一张图片。

python爬取数据并将其存入mongodb

其实很早就想知道如何将爬取到的数据存入数据库，并且实现前后台的交互功能，昨天刚刚看了一集关于爬数据并存数据的视频，今天，在这里总结一下以下为最终所需要爬取的信息：由于需要爬取所有的二手商品信息，所...

Python爬取数据并写入MySQL

关于爬虫爬取数据并存入MySQL数据库（以东方财富网上的股票数据为例，网页：深南电A000037资金流向数据中心东方财富网资金流向数据中心东方财富网）第一步，创建数据库中的数据表 importreq...

是否确定退出登录?

weibo页面爬取并写入MongoDB数据库

跟着大佬学爬虫

注意事项：

全部评论 (0)

相关文章推荐

weibo页面爬取并写入MongoDB数据库

node + mysql 爬取网页数据并写入数据库

python爬取网页数据并自动写入SQLserver数据库

Python爬取网页数据并写入Excel

爬虫笔记14——爬取网页数据写入MongoDB数据库，以爱奇艺为例

Java爬取页面数据导入数据库

爬取李开复博客并导入mongodb数据库

python爬取网站数据并写入mysql数据库

python爬取数据并将其存入mongodb

Python爬取数据并写入MySQL