爬虫实现二级链接页面信息爬取

阅读量：

一.scrapy环境搭建,参考我的博客–>爬虫框架虚拟环境搭建

二.scrapy设置配置

1.设置用户代理

页面刷新后访问，并切换至开发者工具；选定目标网页后，在其网络 headers 中获取该属性；即可完成。

复制代码

    USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    
      
    
    AI写代码

2.是否遵守爬虫协议改为否(原因你懂的)

复制代码

    ROBOTSTXT_OBEY = False
    
      
    
    AI写代码

3.一次允许的最大请求数

复制代码

    # Configure maximum concurrent requests performed by Scrapy (default: 16)
    CONCURRENT_REQUESTS = 2
    
      
      
    
    AI写代码

4.设置下载延迟时间,因而使得爬虫更像是人的行为,避免IP被屏蔽

复制代码

    DOWNLOAD_DELAY = 3
    
      
    
    AI写代码

5.设置下载中间键

复制代码

    DOWNLOADER_MIDDLEWARES = {
       'xymtest.middlewares.XymtestDownloaderMiddleware': 543,
    }
    
      
      
      
    
    AI写代码

6.设置管道

复制代码

    ITEM_PIPELINES = {
       'xymtest.pipelines.XymtestPipeline': 300,
    }
    
      
      
      
    
    AI写代码

7.取消最后几行的注释

复制代码

    HTTPCACHE_ENABLED = True
    HTTPCACHE_EXPIRATION_SECS = 0
    HTTPCACHE_DIR = 'httpcache'
    HTTPCACHE_IGNORE_HTTP_CODES = []
    HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
    
      
      
      
      
      
    
    AI写代码

三.开始编写爬虫代码

1.设置要爬取得items

复制代码

    # define the fields for your item here like:
    title = scrapy.Field()
    content = scrapy.Field()
    
      
      
      
    
    AI写代码

2.在spider下创建一个.py文件,编写爬虫代码.

复制代码

    class testInformation(scrapy.Spider):
    name = 'test'
    #域名后面跟的一串数字不要跟上来
    allowed_domains = ['blog.test.net']    
    #the format of different page's address is https://blog.test.net/u42/article/list/ follows with a number,https://blog.test.net/u042/article/list/1 means the first page, https://blog.test.net/u014229742/article/list/2 is the second.so we can use a the same part plus a number,but we can not add a int type with a string,so we change the number to str
    
    start_urls = ['https://blog.test.net/u42/article/list/' + str(x) for x in range(1, 4)]
    
    
    
    #函数
    def parse(self, response):
    
         #get the xpath of the title:
        #the first title xpath is://*[@id="mainBox"]/main/div[2]/div[1]/h4/a
        #the seconde title xpath is://*[@id="mainBox"]/main/div[2]/div[2]/h4/a
        #the same part is://*[@id="mainBox"]/main/div[2],and from the next div everything is different.div[1] means the first title's xpath.div[2] means the second title's xpath.
        #so if when want to get all the xpath,we can use://*[@id="mainBox"]/main/div[2]/div
        #获取到所有标题的xpath
        li_list = response.xpath('//*[@id="mainBox"]/main/div[2]/div')
    
        #we have to get all the title,so there must has a recycle,xq means one of the 
        for xq in li_list:
            item = XymtestItem()
            #获取到标题内容//*[@id="mainBox"]/main/div[2]/div[1]/h4/a/text()
                         #//*[@id="mainBox"]/main/div[2]/div[2]/h4/a/text()
             #获取到的标题去掉li_list中的公共部分
            item_list = xq.xpath('h4/a/text()').extract()
            #因为获取到的item_list有空的内容,如果直接extract()[0],会报错,故先判断长度,长度不为空,开始取标题
            if len(item_list) > 0:
            #strip()函数可以去除空格
                item['title'] = item_list[1].strip()
             #获取到每个标题的href内容
                url = xq.xpath('h4/a/@href').extract()[0]
              #Request(url, meta={'item': item}, callback = self.parse_detail)方法实现二层链接函数的调取
                yield Request(url, meta={'item': item}, callback = self.parse_detail)
    
    def parse_detail(self, response):
    
        item = response.meta['item']
    #获取到二层链接中要爬取的页面的xpath
        item['content'] = response.xpath('//*[@id="mainBox"]/main/div[1]/div[2]/div/div/span/text()').extract()[0]  
    
        yield item
    
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
    
    AI写代码

复制代码

    好了,以上代码基本实现了一个二层链接的爬取,接下来要做的事将爬取到的数据存储到数据库中供我们使用.想知道更多,继续关注小姐姐!
    
    
      
    
    AI写代码

全部评论 (0)

还没有任何评论哟~

爬虫实现二级链接页面信息爬取

一.scrapy环境搭建,参考我的博客–爬虫框架虚拟环境搭建二.scrapy设置配置 1.设置用户代理进入页面并刷新,进入开发者模式,点击选中一个网页,在NetworkHeaders中找到USER...

链家网页爬虫_爬虫实战1-----链家二手房信息爬取

经过一段机器学习之后，发现实在是太枯燥了，为了增添一些趣味性以及熟练爬虫，在之后会不定时的爬取一些网站旨在熟悉网页结构尤其是HTML的元素,ajax存储，json；熟练使用pyspider,scra...

爬取豆瓣读书-用户信息页链接（Python爬虫实战）

接着上一篇博客（爬取豆瓣读书用户所有阅读书籍名称、日期和书籍链接），进行对用户信息页链接抓取，采用BeautifulSoup框架我的上一篇博客传送门这篇博客主要是获取大量的用户介绍网页链接，这样结...

python爬虫爬取网页信息

爬虫流程：准备工作➡️爬取网页，获取数据（核心）➡️解析内容➡️保存数据解析页面内容：使用beautifulsoup定位特定的标签位置，使用正则表达式找到具体内容 import导入一些库，做准备工作...

python爬虫爬取网页信息

python爬虫爬取古诗词网站导入库 importrequests获取网页 fromlxmlimportetree解析网页库函数1：获取网页 defgethtmlk,typev1: url=htt...

python爬取二级页面_爬虫代码改进(二)|多页抓取与二级页面

本文是下面两篇文章的续篇本系列包括如下内容抓取豆瓣top250一页多个字段整合成列表存储为json文件定义成函数形式多页抓取之构造url 多页抓取之翻页抓取二级页面数据通过生成器优化代码...

python爬虫爬取链家二手房信息(xpath)

python爬虫爬取链家二手房信息xpath 需求流程详细代码需求将小区名称、厅室、面积、毛坯还是精装、楼层、建筑年代、板楼还是塔楼、总价和每平方米单价等信息爬取放入字典中流程 1.查看想要...

python爬取链家_python+scrapy爬虫（爬取链家的二手房信息）

之前用过selenium和request爬取数据，但是感觉速度慢，然后看了下scrapy教程，准备用这个框架爬取试一下。 1、目的：通过爬取成都链家的二手房信息，主要包含小区名，小区周边环境，小区楼层...

scrapy爬虫框架学习（二）scrapy爬取多级网页信息

scrapy爬虫框架学习（二）scrapy爬取多级网页信息 1爬取目标： 1.1针对一级页面获取专利详情页的链接信息 1.2针对专利详情页进行详细信息 2.项目代码实现 2.1item.py:定义要收...

爬虫——scrapy框架爬取多个页面电影的二级子页面的详细信息

文章目录需求：总结：代码： movieinfo.py items.py middleware.py pipelines.py 结果：附加： crawlspider可以改进：需求： scrap...

是否确定退出登录?

爬虫实现二级链接页面信息爬取

一.scrapy环境搭建,参考我的博客–>爬虫框架虚拟环境搭建

二.scrapy设置配置

三.开始编写爬虫代码

全部评论 (0)

相关文章推荐

爬虫实现二级链接页面信息爬取

链家网页爬虫_爬虫实战1-----链家二手房信息爬取

爬取豆瓣读书-用户信息页链接（Python爬虫实战）

python爬虫爬取网页信息

python爬虫 爬取网页信息

python爬取二级页面_爬虫代码改进(二)|多页抓取与二级页面

python爬虫爬取链家二手房信息(xpath)

python爬取链家_python+scrapy爬虫（爬取链家的二手房信息）

scrapy爬虫框架学习（二）scrapy爬取多级网页信息

爬虫——scrapy框架爬取多个页面电影的二级子页面的详细信息

python爬虫爬取网页信息