Python构建自己的代理IP池

阅读量：

代码

GITHUB

目的

在爬取过程中，在遭遇站点反爬虫策略后，则需要定期更换IP地址。因此建议建立一个高效的IP池以供后续爬虫使用。

做法

获取并筛选出可靠代理IP信息存储到数据库中

依赖

requests: HTTP请求

pyquery: 基于Python实现的jQuery库用于高效地解析DOM文档中的HTML元素

PyMySQL： MySQL ，该实例被存储于 MySQL 数据库中。对于数据的处理而言，在数据库上更为便捷。

实现

爬取网页，获取数据

复制代码

    def getProxy(protocal, link, page=1):
    try:
        url = f'https://www.xicidaili.com/{link}/{page}'
        res = requests.get(url, headers={'User-Agent': UA['PC']})
        if (res and res.status_code == 200):
            html = pq(res.text)('#ip_list tr')
    
            for i in range(html.length):
                host = pq(tds[1]).text()
                port = pq(tds[2]).text()

在上述展示的代码片段中, 我们通过解析西刺免费代理IP网这一网络架构, 成功获取了目标网络接口及对应端口号信息.

检测IP，端口的有效性

西刺免费代理IP网提供的大量IP缺乏有效性特征, 因此必须采取过滤措施才能存入数据库

复制代码

    def checkProxy(proxylink):
    try:
        ret = requests.get(
            'https://www.baidu.com',
            proxies={'https': proxylink},
            timeout=5,
        )
        if (ret and ret.status_code == 200):
            print(proxylink)
            return True
    except Exception as e:
         pass

我们使用上面的方法，代理请求百度地址，检测代理的有效性

将有效的IP入库，已在数据库中但是无效的IP，移除

复制代码

    # 连接数据库
    def connect():
    try:
        db = pymysql.connect(
            MYSQL['host'],
            MYSQL['username'],
            MYSQL['password'],
            MYSQL['dbname'],
        )
        cursor = db.cursor()
        return {'db': db, 'cursor': cursor}
    except Exception as e:
        print('connect error:', e)
    
    *****
    mysql = connect()
    # 检查DB 是否已存在某代理地址
    mysql['cursor'].execute(
    f'select count(*) from proxy where host = "{host}" and port = "{port}"',
    )
    # 如果代理有效，且不存在DB中，代理入库
    mysql['cursor'].execute(
    f'insert into proxy(host,port,protocal) values("{host}","{port}","{protocal}")'
    )
    mysql['db'].commit()
    # 如果代理无效，但是又存在于DB中，删除代理
    mysql['cursor'].execute(
    f'delete from proxy where host = "{host}" and port = "{port}"'
    )
    mysql['db'].commit()
    # 关闭连接
    mysql['db'].close()

由于每个代理都需要检测其有效性的缘故，在本系统中采用了多线程技术来完成所有检测任务，并确保每一个检测任务都能高效运行。为了进一步提高系统的性能，在设计过程中特别考虑了每条记录的处理流程，并采取了相应的优化措施以减少资源浪费。在具体实现过程中，默认情况下会为每一个MySQL连接分配独立的资源池以确保系统的稳定运行

上面阐述的比较碎片，具体的实现可以看源码，代码包含SQL结构。

展示效果

全部评论 (0)

还没有任何评论哟~

Python构建自己的代理IP池

代码 GITHUB 目的爬虫过程中，遭遇站点反爬虫策略，需要定期切换IP。所以我构建一个有效的IP池，用于之后的爬虫工作做法爬取西刺免费代理IP网，快代理筛选有效的代理IP入库依赖 requ...

如何构建一个自己的代理ip池

前言对于爬虫来说，当你的访问频率达到了目标网站的预警值时，就可能触发目标网站的反爬机制。而封禁访问者ip就是很常见的一个反爬机制。当ip被封禁后，从此ip发出的请求将不能得到正确的响应。这种时候，...

Python采集网站ip代理, 检测IP代理是否可用，构建自己的ip代理池

开发环境 Python3.8 Pycharm 模块使用 requestspipinstallrequests parselpipinstallparsel 代理ip结构 proxiesdict= ht...

Python构建代理ip池

文章目录概述提供免费代理的网站代码导包网站页面的url ip地址检测整理必要参数总代码总结概述用爬虫时，大部分网站都有一定的反爬措施，有些网站会限制每个IP的访问速度或访问次数...

应对IP被封--抓取西刺代理，并构建自己的代理池

一、IP简介：互联网协议地址（英语：InternetProtocolAddress，又译为网际协议地址），缩写为IP地址（英语：IPAddress），是分配给网络上使用网际协议（英语：Interne...

通过flask构建自己的代理池

在mongodb中爬取可用的ip coding：utf8 time：2019/4/1512:17 author:毛利 importrandom importpymongo fromflaskimpor...

python爬虫——构建代理ip池

今年6月份开始的自己的数据分析项目，到现在已经快3个月的时间了。因为中间停歇了两个月的时间，导致现在依然滞留在数据采集那一部分，还好这两天又有了时间来折腾折腾。

python构建IP代理池（Proxy Pool）

基本原理代理实际上指的就是代理服务器，它的功能是代理网络用户去取得网络信息。也可以说它是网络信息的中转站。在我们正常请求一个网站时，是将请求发送给Web服务器，Web服务器把响应传回给我们。

python爬虫-自建IP代理池

写在前面最近跟静觅大神学习了维护代理池就借此机会整理一下整体思路代理池主要分为4个模块：存储模块、获取模块、检测模块、接口模块存储模块：使用Redis有序集合，用来做代理的去重和状态标识获...

python爬虫构建国外代理池_Python爬虫入门（四）教你免费拥有自己的代理IP池

众所周知，目前有很多网站的服务器数据并不想很轻易的被别人抓取，并且当你的爬虫程序过于“霸道”时，很容易将一些小厂的服务器卡死。针对这些，一般服务器都会设置一下反爬策略。其中比较有效的反爬策略的就是针对...

是否确定退出登录?

Python构建自己的代理IP池

代码

目的

做法

依赖

实现

爬取网页，获取数据

检测IP，端口的有效性

将有效的IP入库，已在数据库中但是无效的IP，移除

展示效果

全部评论 (0)

相关文章推荐

Python构建自己的代理IP池

如何构建一个自己的代理ip池

Python采集网站ip代理, 检测IP代理是否可用，构建自己的ip代理池

Python构建代理ip池

应对IP被封--抓取西刺代理，并构建自己的代理池

通过flask构建自己的代理池

python爬虫——构建代理ip池

python构建IP代理池（Proxy Pool）

python爬虫-自建IP代理池

python爬虫构建国外代理池_Python爬虫入门（四）教你免费拥有自己的代理IP池