python爬取数据并将其存入mongodb

阅读量：

其实很早就想知道如何将爬取到的数据存入数据库，并且实现前后台的交互功能，昨天刚刚看了一集关于爬数据并存数据的视频，今天，在这里总结一下~ 吐舌头

以下为最终所需要爬取的信息：

由于需要爬取所有的二手商品信息，所以以下内容也要爬取到：

1.先写一个py文件，用于爬取上述图片类目导航的各个链接：

复制代码

 #-*-coding:utf-8-*-

    
 from bs4 import BeautifulSoup
    
 import requests
    
  
    
 start_url = 'http://bj.58.com/sale.shtml'
    
 url_host = 'http://bj.58.com'
    
  
    
 def get_channel_urls(url):
    
     wb_data = requests.get(start_url)
    
     soup = BeautifulSoup(wb_data.text,'html.parser')
    
     links = soup.select('ul.ym-submnu > li > b > a')
    
     for link in links:
    
     page_url = url_host + link.get('href')
    
     print page_url
    
 get_channel_urls(start_url)
    
  
    
 #类目导航链接
    
 channel_list = '''
    
     http://bj.58.com/shouji/
    
     http://bj.58.com/tongxunyw/
    
     http://bj.58.com/danche/
    
     http://bj.58.com/fzixingche/
    
     http://bj.58.com/diandongche/
    
     http://bj.58.com/sanlunche/
    
     http://bj.58.com/peijianzhuangbei/
    
     http://bj.58.com/diannao/
    
     http://bj.58.com/bijiben/
    
     http://bj.58.com/pbdn/
    
     http://bj.58.com/diannaopeijian/
    
     http://bj.58.com/zhoubianshebei/
    
     http://bj.58.com/shuma/
    
     http://bj.58.com/shumaxiangji/
    
     http://bj.58.com/mpsanmpsi/
    
     http://bj.58.com/youxiji/
    
     http://bj.58.com/jiadian/
    
     http://bj.58.com/dianshiji/
    
     http://bj.58.com/ershoukongtiao/
    
     http://bj.58.com/xiyiji/
    
     http://bj.58.com/bingxiang/
    
     http://bj.58.com/binggui/
    
     http://bj.58.com/chuang/
    
     http://bj.58.com/ershoujiaju/
    
     http://bj.58.com/bangongshebei/
    
     http://bj.58.com/diannaohaocai/
    
     http://bj.58.com/bangongjiaju/
    
     http://bj.58.com/ershoushebei/
    
     http://bj.58.com/yingyou/
    
     http://bj.58.com/yingeryongpin/
    
     http://bj.58.com/muyingweiyang/
    
     http://bj.58.com/muyingtongchuang/
    
     http://bj.58.com/yunfuyongpin/
    
     http://bj.58.com/fushi/
    
     http://bj.58.com/nanzhuang/
    
     http://bj.58.com/fsxiemao/
    
     http://bj.58.com/xiangbao/
    
     http://bj.58.com/meirong/
    
     http://bj.58.com/yishu/
    
     http://bj.58.com/shufahuihua/
    
     http://bj.58.com/zhubaoshipin/
    
     http://bj.58.com/yuqi/
    
     http://bj.58.com/tushu/
    
     http://bj.58.com/tushubook/
    
     http://bj.58.com/wenti/
    
     http://bj.58.com/yundongfushi/
    
     http://bj.58.com/jianshenqixie/
    
     http://bj.58.com/huju/
    
     http://bj.58.com/qiulei/
    
     http://bj.58.com/yueqi/
    
     http://bj.58.com/chengren/
    
     http://bj.58.com/nvyongpin/
    
     http://bj.58.com/qinglvqingqu/
    
     http://bj.58.com/qingquneiyi/
    
     http://bj.58.com/chengren/
    
     http://bj.58.com/xiaoyuan/
    
     http://bj.58.com/ershouqiugou/
    
     http://bj.58.com/tiaozao/
    
     http://bj.58.com/tiaozao/
    
     http://bj.58.com/tiaozao/
    
   80. '''

2.建立另一个py文件，用于爬取商品信息：

复制代码

 from bs4 import BeautifulSoup

    
 import requests
    
 import time
    
 import pymongo
    
  
    
 client = pymongo.MongoClient()
    
 ceshi = client['ceshi']
    
 url_list = ceshi['url_list3']
    
 item_info = ceshi['item_info3']
    
  
    
 def get_links_from(channel,pages,who_sells=0):
    
     list_view = '{}{}/pn{}'.format(channel,str(who_sells),str(pages))
    
     wb_data = requests.get(list_view)
    
     time.sleep(1)
    
     soup = BeautifulSoup(wb_data.text,'html.parser')
    
     if soup.find('td','t'):
    
     for link in soup.select('td.t a.t'):
    
         item_link = link.get('href').split('?')[0]
    
         url_list.insert_one({'url':item_link})
    
         print item_link
    
     else:
    
     pass
    
  
    
 def get_item_info(url):
    
     wb_data = requests.get(url)
    
     soup = BeautifulSoup(wb_data.text,'html.parser')
    
     no_longer_exist = '404' in soup.find('script',type="text/javascript").get('src').split('/')
    
     if no_longer_exist:
    
     pass
    
     else:
    
     title = soup.title.text
    
     price = soup.select('span.price.c_f50')[0].text
    
     date = soup.select('.time')[0].text
    
     area = list(soup.select('.c_25d a')[0].stripped_strings) if soup.find_all('span','c_25d') else None
    
     item_info.insert_one({'title':title,'price':price,'date':date,'area':area})
    
     print({'title':title,'price':price,'date':date,'area':area})
    
  
    
 get_item_info('http://bj.58.com/shuma/28049255291945x.shtml')
    
 #get_links_from('http://bj.58.com/shuma/',2)

在第二个py文件中，需要注意的是：

1.连接mongodb时，可以不用提前在mongovue中建立数据库和collection，它会自动创建。

2.定义的第一个函数是用来爬取每个商品的具体url，并将其存入mongodb，第二个函数是通过每个商品具体的url来爬取相应的商品信息，并存入数据库，这两个函数不能同时运行。

3.在这次的爬虫项目中，有好多爬取技巧，如：

复制代码

    links = soup.select('ul.ym-submnu > li > b > a')

复制代码

    list_view = '{}{}/pn{}'.format(channel,str(who_sells),str(pages))

复制代码

     for link in soup.select('td.t a.t'):

    
         item_link = link.get('href').split('?')[0]
    
         url_list.insert_one({'url':item_link})

复制代码

    area = list(soup.select('.c_25d a')[0].stripped_strings) if soup.find_all('span','c_25d') else None

等等，嘻嘻，反正这些我感觉比较新颖~~

最后，将数据存入数据库其实就是在连接数据库时，代码中有插入语句，就行~~

展示一下数据库中结果：

全部评论 (0)

还没有任何评论哟~

python爬取数据并将其存入mongodb

其实很早就想知道如何将爬取到的数据存入数据库，并且实现前后台的交互功能，昨天刚刚看了一集关于爬数据并存数据的视频，今天，在这里总结一下以下为最终所需要爬取的信息：由于需要爬取所有的二手商品信息，所...

将爬取的图片地址存入mongodb数据库

流程如下 importrequests fromlxmlimportetree importpymongo 与mongodb数据建立连接 conn=pymongo.MongoClient'localh...

Scrapy爬取数据存入Mongodb中

导读这次使用scrapy简单的爬取一些多列表电影数据，存储在csv文件及json文件中，最后把这些数据全部存储在Mongodb中。涉及的知识点有pipeline，yield，中间件，xpath，it...

Python爬虫实战 | (11) 爬取网络小说并存入MongoDB数据库

之前在Python爬虫实战2中我们曾爬取过网络小说，本篇博客的爬取解析过程和之前几乎完全一样，不同的是数据存储方式，之前是存储到文件中csv,txt,json,excel等，这次我们将提取的小说存储到...

python爬虫爬取淘宝商品并保存至mongodb数据库

使用工具介绍 python3.8 selenium（请确保你已经成功安装了谷歌驱动chromedriver） mongodb数据库 mongocompass 谷歌浏览器分析请求链接打开淘宝首页的链...

python爬取静态数据并存入数据库

python爬取静态数据并存入数据库连接mysql数据库导入pymysql，连接数据库在mysql中创建数据表 createtablehwinfo idvarchar20primarykey, ...

python爬取证券数据并存入数据库

用python爬虫爬取数据并存到数据库 1编写爬虫，下载数据 2处理数据 3python连接数据库并存储数据 1.编写爬虫，下载数据首先需要的导入requests库（importrequests）如...

python爬取微博数据存入数据库_python爬取微博并且存入数据库

由于平时喜欢刷微博，追星，所以写了想要写一个爬取微博的爬虫，在老师的建议下选择从移动端爬取，因为移动端页面元素简洁，易于爬取。在看微博时发现有比移动端更加简单的一个版本。。。。老年机版？就是分页式的。

爬取知乎内容，并将内容保存到mongodb数据库中

爬取知乎我关注的一个公众号的动态，它的抓取需要模拟ajax请求，，将抓取到的内容保存到mongodb的数据库中 https://www.zhihu.com/api/v4/members/sgai/ac...

win7下使用mitmdump爬取得到app数据并存入mongodb

环境：win7 时间：2019101 最近在学习爬取app数据，参考崔庆才大佬的书《python3网络爬虫开发实战》中的第十一章在安装好mitmdump后，运行自定义脚本开始抓包却出现了错误。

是否确定退出登录?

python爬取数据并将其存入mongodb

全部评论 (0)

相关文章推荐

python爬取数据并将其存入mongodb

将爬取的图片地址存入mongodb数据库

Scrapy爬取数据存入Mongodb中

Python爬虫实战 | (11) 爬取网络小说并存入MongoDB数据库

python爬虫爬取淘宝商品并保存至mongodb数据库

python爬取静态数据并存入数据库

python爬取证券数据并存入数据库

python爬取微博数据存入数据库_python爬取微博并且存入数据库

爬取知乎内容，并将内容保存到mongodb数据库中

win7下使用mitmdump爬取得到app数据并存入mongodb