当爬虫遇上重定向

阅读量：

爬虫之处理重定向问题

问题导论
什么是重定向？
在这里插入图片描述
简单的说，重定向就是请求被转发到其他页面去了
在生活中，当我们打开一个网址时，往往需要等待稍长一段时间，而最终的网址也发生的变化，这就是重定向。如果我们日常用浏览器浏览网站倒是没有什么问题，但是，当我们使用爬虫来爬取这样的页面时，真正的网址就会被忽略。那么，我们该如何处理这样的情况呢？

实例分析
下面我们以两个个真实的网址，我们要提取它的title，提取的表达式很简单：

复制代码

    /html/head/title/text() #使用的xpath

主体代码

代码一：

复制代码

    import requests  #导入模块
    #声明头部
    header= {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0"
    }
    
    html=requests.get("http://med.tongji.edu.cn",headers=header)
    
    print(html.text)

相信大家都使用过这样的代码

让我们来看看结果

复制代码

    <script type="text/javascript">
    //平台、设备和操作系统
    var system ={
        win : false,
        mac : false,
        xll : false
    };
    //检测平台
    var p = navigator.platform;
    system.win = p.indexOf("Win") == 0;
    system.mac = p.indexOf("Mac") == 0;
    system.x11 = (p == "X11") || (p.indexOf("Linux") == 0);
    if (system.win || system.mac || system.xll) {
        window.location.href = "/Web/Home";
    }else{
        window.location.href="/Mobile/Home";
    }
    </script>

上面返回了一段js代码，其中window.location.href中的字符串就是我们真正的目标网页

（可以通过浏览器验证，我们也可以看到实际上还有PC端和移动端两种网页形式）

代码二：（更换了网址）

复制代码

    import requests
    
    header= {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0"
    }
    
    html=requests.get("http://sem.tongji.edu.cn",headers=header)
    
    print(html.text)

结果如下：

复制代码

    <meta http-equiv="refresh" content="0.1;url=http://sem.tongji.edu.cn/semch/">

这里我们又看到了一种重定向的方式，即使用“http-equiv=‘refresh’”字段来引导新的网址

上面的重定向都会使我们找不到title，导致进一步爬取失败

3.方法剖析

对于以上两种比较常见的重定向方式

方法一：requests.get(url,allow_redirects=False)

allow_redirects=False的意义为拒绝默认的301/302重定向从而可以通过

html.headers[‘Location’]拿到重定向的URL。

方法二：方法一是我参考一片博文发现的，方法可谓十分的方便，下面的方法（建议方法一不起

作用时使用）

我们可以用正则表达式将目标网址找出来，由于重定向具有标识如refresh、window.location.href

等，所以在正则中加入它们将有助于找到目标网址，同时，由于不知道网页传回的重定向类型，

所以我们还需要将两个正则都匹配一下，选出其中有结果的那个

4.代码实现

使用正则时注意表达式的匹配方式

情况一：

复制代码

    pat1='http-equiv="refresh".*?url=["]?(.*?)"' #使用正则匹配refresh字段

这里在目标网址前我加上了["]?，是为了当url在其他情况中被放到外部，单独成一个字段

如：url="http://sem.tongji.edu.cn/semch/"(上面的是放在字段content里面）时，也能将目

标网址匹配出来

情况二：

复制代码

    pat2='window.location.href=".*?(\w.*?)"'   #使用正则匹配window.location.href

这里同样有一个注意点，之前的window.location.href中，我们看到的是/Web/Home

但是有一种情况，即出现的是Web/Home(没有前面的斜杠），如果不使用\w，两种情况在后面连

接网址时会出现误差，所以我们统一匹配"Web/Home"

下面进行匹配结果的处理，代码如下：

复制代码

    from lxml import etree
    
    #使用正则匹配refresh字段
    pat1='http-equiv="refresh".*?url=["]?(.*?)"'
    ret1 =re.compile(pat1).findall(empty_urls[i])
    
    #使用正则匹配window.location.href
    pat2='window.location.href=".*?(\w.*?)"'
    ret2=re.compile(pat2).findall(empty_urls[i])
    
    #取两者中不为空的项（即存在项）
    ret=ret1 if ret1 else ret2
    
    #如果还是为空，那么打印提示信息（此时我们就不能用上面的方法了）
    if not ret:
    print("Sorry,temporarily we can find its real title")
    else:
    #如果结果存在，对匹配结果进行分析，如果网址完整，就直接使用，不完整则进行网址的拼接
    if ret[0].startswith("http"):
        pass
    else:
        ret[0]=i+"/"+ret[0]
    try:
        #获取真正的网址源代码
        real_data=requests.get(url)
         #将源码转化为能被XPath匹配的格式
        selector=etree.HTML(real_data)
        #匹配title
        real_title=selector.xpath(xpath)[0]
        print(i,"\'s real title is ",real_title.strip())
    except Exception as e:
        #异常处理
        print("Emmmm,there is an error:"+str(e))

在上面的两个网址的实验中，通过重定向的处理方式，我们得到了正确的结果

复制代码

    http://sem.tongji.edu.cn 's real title is  xxxxxxx
    http://med.tongji.edu.cn 's real title is  xxxxxxx

5.总结：
1.上面方法的探讨，都是基于起初爬取时产生的错误，并且要一步一步的输出相关信息，同时结合

资料而来，做爬虫时关键是要有耐心，虽然我们有强大的模块和工具来处理问题，但是也避免不

了一些意外的发生（就像一开始我就没考虑过还有重定向）

2.上面的讨论还是基于一些规模较小的爬虫，对于使用scrapy框架的朋友们，建议直接使用框架提

供的解决重定向的方式
3.事实上，还有重定向的方式，虽然同样使用js的方式，但是不直接隐藏在html中，而是以单独文

件传送，我的建议是直接抓包分析（推荐使用fiddle4），看清主机和服务器之间传输的到底是什

么，这样就能节省很大麻烦

以上就是我在学习爬虫中遇到过的重定向，以后如果有新的情况还将补充扩展，不足之处还请指

出，方便改进

全部评论 (0)

还没有任何评论哟~

当爬虫遇上重定向

爬虫之处理重定向问题 1. 问题导论什么是重定向？简单的说，重定向就是请求被转发到其他页面去了在生活中，当我们打开一个网址时，往往需要等待稍长一段时间，而最终的网址也发生的变化，这就是重定向。

node爬虫遇上301重定向Moved Permanently

遇到场景:在爬取相关网站时，刚开始一段时间可以爬，过了一段时间后则爬取报错301MovedPermanently，浏览器打开网站是正常打开。以下是遇到该报错时的代码： constcharset=re...

python爬虫重定向_爬虫基础之http重定向

http重定向分为两种：301，所请求的URL已经被移除，响应头的Location首部包含了所访问资源当前所用的URL 302，与301形式相同，区别在于，301用于资源永久移除的情况，而302用于临...

Python 爬虫进阶必备 | 当 Js 逆向遇上 wasm（一）

前言关注公众号【咸鱼学Python】获取更多关于Python爬虫、Js逆向、安卓逆向的文章 Wasm是一种底层汇编语言，具有文本格式支持，其目标是可移植、安全和高效。 Wasm的模块可以被导入的到一...

爬虫重定向问题

与大神一起工作的日常问题1：之前一直在使用requests进行爬虫，虽然说也能执行并且获取数据，但是相对来说scrapy更为有效 scrapy日常出错代码解读背景：今天在进行scrapy修改的...

python重定向反爬虫_python爬虫重定向次数过多问题

错误提示如下： raiseTooManyRedirects'Exceeded%sredirects.'%self.maxredirects,response=resp requests.excepti...

python爬虫重定向问题_python爬虫（网页重定向怎么破？）

声明：此实例仅用于学习 1.网页重定向。在分析房天下网站，不难发现每个网页有个重定向，比如：访问网页https://cd.esf.fang.com/chushou/3211293494.htm会跳转...

当爬虫遇上反爬虫：一场技术与策略的攻防博弈

简介在数据驱动的时代，爬虫技术成为获取信息的重要工具，而反爬虫机制则是网站守护数据的核心防线。这场博弈不断推动着技术的迭代升级。本文将深入剖析主流反爬虫手段的技术逻辑，并探讨破解之道。

当Python爬虫遇到JS加密

我们在做python爬虫的时候经常会遇到许多的反爬措施，js加密就是其中一种。破解js加密的方法也有很多种： 1.直接驱动浏览器抓取数据，无视js加密。 2.找到本地加密的js代码，使用python...

当python爬虫遇到10060错误

相信做过网站爬虫工作的同学都知道，python的urllib2用起来很方便，使用以下几行代码就可以轻松拿到某个网站的源码： coding=utf8 importurllib importurllib2...

是否确定退出登录?

当爬虫遇上重定向

爬虫之处理重定向问题

全部评论 (0)

相关文章推荐

当爬虫遇上重定向

node爬虫遇上301重定向Moved Permanently

python爬虫重定向_爬虫基础之http重定向

Python 爬虫进阶必备 | 当 Js 逆向遇上 wasm（一）

爬虫重定向问题

python重定向反爬虫_python爬虫重定向次数过多问题

python爬虫重定向问题_python爬虫（网页重定向怎么破？）

当爬虫遇上反爬虫：一场技术与策略的攻防博弈

当Python爬虫遇到JS加密

当python爬虫遇到10060错误