爬虫——scrapy框架爬取多个页面电影的二级子页面的详细信息

阅读量：

文章目录

需求：
总结：
代码：
结果：
附加：
crawlspider可以改进：

需求：

该框架用于从该电影网站上抓取所有电影一级页面的名字
https://www.55xia.com/
通过代理服务器进行访问以获取所有电影二级页面的具体信息
确保访问过程中的网络安全并记录抓取过程中的各种数据日志
将数据导出为逗号分隔的文本文件并保存至指定目录

总结：

深入探讨XPath解析中使用extract()函数的各种应用场景及其分析

2、xpath用法注意的点：

复制代码

    div[not(contains(@class,"col-xs-12"))]

CSS class name不包含 $`col-xs-12$ `类型的div标签

3、二次解析时，用meta参数字典格式传递第一次解析的参数值。

复制代码

     # meta 传递第二次解析函数
     yield scrapy.Request(url=url, callback=self.parse_detail, meta={'item': item})

4、存为csv文件：

复制代码

    import csv
    csv.writer
    writerow

5、空行加参数newline='',

复制代码

    self.f=open('./movie.csv','w',newline='', encoding='utf-8')

6、伪装UA，保存日志，编码格式
settings里设置

复制代码

    USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'
    FEED_EXPORT_ENCODING = 'utf-8-sig'
    LOG_LEVEL = 'ERROR'
    LOG_FILE = 'log.txt'
    ROBOTSTXT_OBEY = False

7、代理ip中间件

复制代码

    class MyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = 'https://157.230.150.101:8080'

settings设置：

复制代码

    DOWNLOADER_MIDDLEWARES = {
       'movie.middlewares.MyMiddleware': 543,
    }

代码：

movieinfo.py

复制代码

    import scrapy
    from movie.items import MovieItem
    
    
    class MovieinfoSpider(scrapy.Spider):
    name = 'movieinfo'
    # allowed_domains = ['www.movie.com']
    start_urls = ['https://www.55xia.com/movie']
    page = 1
    base_url = 'https://www.55xia.com/movie/?page={}'
    
    # 解析二级子页面
    def parse_detail(self, response):
    
        # 导演可能不止一人，不用extract_first（），拼接成字符串
        directors = response.xpath(
            '/html/body/div[1]/div/div/div[1]/div[1]/div[2]/table/tbody/tr[1]/td[2]//a/text()').extract()
        directors = " ".join(directors)
        movieType = response.xpath(
            '/html/body/div[1]/div/div/div[1]/div[1]/div[2]/table/tbody/tr[4]/td[2]/a/text()').extract_first()
        area = response.xpath(
            '/html/body/div[1]/div/div/div[1]/div[1]/div[2]/table/tbody/tr[5]/td[2]//text()').extract_first()
        time = response.xpath(
            '/html/body/div[1]/div/div/div[1]/div[1]/div[2]/table/tbody/tr[7]/td[2]//text()').extract_first()
        score = response.xpath(
            '/html/body/div[1]/div/div/div[1]/div[1]/div[2]/table/tbody/tr[9]/td[2]//a/text()').extract_first()
    
        # 取出meta的item
        item = response.meta['item']
        print('二级子页面:', item['name'])
    
        item['directors'] = directors
        item['movieType'] = movieType
        item['area'] = area
        item['time'] = time
        item['score'] = score
        yield item
    
    def parse(self, response):
        """
        获取超链接
        导演，编剧，主演，类型，地区，语言，上映时间，别名，评分
        :param response:
        :return:
        """
        div_list = response.xpath('/html/body/div[1]/div[1]/div[2]/div[not(contains(@class,"col-xs-12"))]')
        for div in div_list:
            name = div.xpath('./div/div/h1/a/text()').extract_first()
    
            print('已找到:',name)
    
            url = div.xpath('.//div[@class="meta"]/h1/a/@href').extract_first()
            url = "https:" + url
            # 实例化item对象并存储
            item = MovieItem()
            item['name'] = name
            # meta 传递第二次解析函数
            yield scrapy.Request(url=url, callback=self.parse_detail, meta={'item': item})
    
        # 完成每页之后开始下一页
        if self.page < 3:
            self.page += 1
            new_url=self.base_url.format(self.page)
            yield scrapy.Request(url=new_url, callback=self.parse)

items.py

复制代码

    import scrapy
    
    
    class MovieItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()
    directors = scrapy.Field()
    movieType = scrapy.Field()
    area = scrapy.Field()
    time = scrapy.Field()
    score = scrapy.Field()

middleware.py

复制代码

    class MyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = 'https://157.230.150.101:8080'

pipelines.py

复制代码

    import csv
    
    
    class MoviePipeline(object):
    
    def open_spider(self, spider):
        print('开始存储')
        self.f=open('./movie.csv','w',newline='', encoding='utf-8')
        self.writer= csv.writer(self.f)
        self.writer.writerow(['name','directors','movieType','area','time','score'])
    
    def process_item(self, item, spider):
        print('正在写入')
        self.writer.writerow([item['name'],item['directors'],item['movieType'],item['area'],item['time'],item['score']])
        return item
    
    def close_spider(self, spider):
        self.f.close()
        print('保存完成')

结果：

附加：

在Excel和CSV文件格式的主要区别方面

crawlspider可以改进：

crawlspider表现更为卓越，在代码中编写一个正则表达式能够提取页面中所有符合规范的URL地址，并从而实现对网页内容的自动化解析

使用Scrapy启动一个新项目工程：scrapy startproject 工程名
- 切换至该目录：cd 该文件夹
- 编写一个爬虫脚本并将其命名为[爬虫文件名]：scrapy genspider -t crawl [爬虫文件名] [网址]
  - 配置生成规则为：-t crawl [生成规则内容]
    - 其中核心部分的核心算法采用了一个高效的规则抽取机制：主要是rule比较牛

复制代码

      rules = (
        Rule(LinkExtractor(allow=r'/movie/\?page=\d+'), callback='parse_item', follow=False),
    )

复制代码

    import scrapy
    from scrapy.linkextractors import LinkExtractor
    from scrapy.spiders import CrawlSpider, Rule
    
    
    class TtSpider(CrawlSpider):
    name = 'tt'
    # allowed_domains = ['www.baidu.com']
    start_urls = ['https://www.55xia.com/movie']
    
    rules = (
        Rule(LinkExtractor(allow=r'/movie/\?page=\d+'), callback='parse_item', follow=False),
    )
    '''
    LinkExtractor(allow=r'Items/') 实例化一个链接提取器的对象，根据allow的正则表达式来提取指定内容。
    Rule（）实例化一个规则解析器对象，对Link提取的链接发起请求，获取链接对应的页面内容，交给callback解析
    follow 表示是否在提取到的url链接页面再次以相同规则提取，
    scrapy 最后会去重
    # follow=True 所有的页面数据。
    '''
    
    def parse_item(self, response):
        # i = {}
        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()
        #i['name'] = response.xpath('//div[@id="name"]').extract()
        #i['description'] = response.xpath('//div[@id="description"]').extract()
        # return i
        '''
        print(response)打印的是提取器提取到的链接，但是可以直接response.xpath解析链接指向的页面！
        :param response:
        :return:
        '''
        title=response.xpath('/html/body/div[1]/div[1]/div[2]/div[1]/div/div/h1/a/text()').extract_first()
        print(title)

全部评论 (0)

还没有任何评论哟~

爬虫——scrapy框架爬取多个页面电影的二级子页面的详细信息

文章目录需求：总结：代码： movieinfo.py items.py middleware.py pipelines.py 结果：附加： crawlspider可以改进：需求： scrap...

scrapy爬虫框架学习（二）scrapy爬取多级网页信息

scrapy爬虫框架学习（二）scrapy爬取多级网页信息 1爬取目标： 1.1针对一级页面获取专利详情页的链接信息 1.2针对专利详情页进行详细信息 2.项目代码实现 2.1item.py:定义要收...

使用Scrapy爬虫框架爬取一个页面

参考资料：Python网络爬虫与信息提取（北京理工大学慕课）这个就是我们准备爬取的页面：使用Scrapy库，首先需要产生一个Scrapy爬虫框架，它分为如下一些步骤： 1.建立一个Scrapy爬虫...

scrapy爬虫框架(四)-爬取多个网页

scrapy爬虫框架四爬取多个网页思路：通过判断句子控网站中，下一页是否还有a标签来获取网址，拼接后继续爬取，最终写入json文件中。 juziSpider.py coding:utf8 impo...

爬虫框架Scrapy（12）爬取动态页面

文章目录爬取动态页面（一）Splash渲染引擎 1\.render.html端点 2\.execute端点 3\.常用属性与方法（1）Splash对象的属性（2）Splash对象的方法（二）...

爬虫实现二级链接页面信息爬取

一.scrapy环境搭建,参考我的博客–爬虫框架虚拟环境搭建二.scrapy设置配置 1.设置用户代理进入页面并刷新,进入开发者模式,点击选中一个网页,在NetworkHeaders中找到USER...

爬虫实战——爬取电影天堂的电影详情页信息

爬取电影天堂的电影详情页信息思路分析 1、获取每一个页面的URL地址 2、获取电影详情页面的URL 3、爬取电影详情页面 4、从页面中提取信息 5、将提取到的信息保存到文件完整代码结果展示注意...

python爬取二级页面_爬虫代码改进(二)|多页抓取与二级页面

本文是下面两篇文章的续篇本系列包括如下内容抓取豆瓣top250一页多个字段整合成列表存储为json文件定义成函数形式多页抓取之构造url 多页抓取之翻页抓取二级页面数据通过生成器优化代码...

Scrapy定向爬虫教程(三)——爬取多个页面

本节内容本部分所实现的功能是，批量的爬取网页信息，不再是像以前那样只能下载一个页面了。也就是说，分析出网页的url规律后，用特定的算法去迭代，达到把整个网站的有效信息都拿下的目的。

python爬虫爬取多个页面_Python 爬虫爬取多页数据

但是，按照常规的爬取方法是不可行的，因为数据是分页的：最关键的是，不管是第几页，浏览器地址栏都是不变的，所以每次爬虫只能爬取第一页数据。为了获取新数据的信息，点击F12，查看页面源代码，可以发现数据...

是否确定退出登录?

爬虫——scrapy框架爬取多个页面电影的二级子页面的详细信息

文章目录

需求：

总结：

代码：

movieinfo.py

items.py

middleware.py

pipelines.py

结果：

附加：

crawlspider可以改进：

全部评论 (0)

相关文章推荐

爬虫——scrapy框架爬取多个页面电影的二级子页面的详细信息

scrapy爬虫框架学习（二）scrapy爬取多级网页信息

使用Scrapy爬虫框架爬取一个页面

scrapy爬虫框架(四)-爬取多个网页

爬虫框架Scrapy（12）爬取动态页面

爬虫实现二级链接页面信息爬取

爬虫实战——爬取电影天堂的电影详情页信息

python爬取二级页面_爬虫代码改进(二)|多页抓取与二级页面

Scrapy定向爬虫教程(三)——爬取多个页面

python爬虫爬取多个页面_Python 爬虫爬取多页数据