Python 爬虫：爬取雪球股票数据并存储到 MySQL 数据库

阅读量：

一、项目概述与结果展示

本文将通过 Python 实现一个爬虫项目，爬取雪球网的股票列表数据并将其存入 MySQL 数据库。你将学习到如何用 requests 发送 HTTP 请求获取数据，并用 pymysql 操作数据库，高效地管理和存储大规模数据。

结果展示

二、技术栈解析

requests：轻量级 HTTP 库，用于爬取雪球网的股票数据。
pymysql：用于连接并操作 MySQL 数据库。
MySQL 数据库：作为持久化数据存储方案，确保数据可供后续分析和查询。

三、代码实现与详细解读

1. 初始化数据库连接与表

我们首先在 init() 方法中初始化 MySQL 连接，并创建数据库和数据表：

复制代码

    import pymysql  # 用于连接 MySQL 数据库
    class StockSpider:
    def __init__(self):
        """初始化爬虫对象，设置数据库连接和表创建"""
        self.conn = pymysql.connect(
            host='localhost',  
            user='root',  # 替换为你的 MySQL 用户名
            password='******',  # 替换为你的 MySQL 密码
            charset='utf8mb4'  # 设置字符集
        )
        self.cursor = self.conn.cursor()  
        self.create_database()  
        self.conn.select_db('******')  
        self.create_table()  
    pymysql.connect()：用于连接数据库。
    create_database() 和 create_table() 方法用于创建数据库和表结构。

2. 创建数据库和表

在 MySQL 中创建数据库与表，用于存储爬取的数据：

复制代码

    def create_database(self):
        """创建数据库（如果不存在）"""
        self.cursor.execute(
            'CREATE DATABASE IF NOT EXISTS ****** CHARACTER SET utf8mb4;'
        )
        self.conn.commit()
    
    def create_table(self):
        """创建 stock 表，定义字段和类型"""
    		#创建表
        
        self.cursor.execute(create_table_query)
        self.conn.commit()

数据库表结构设计：
每个字段类型与股票数据类型相匹配，如 VARCHAR、DECIMAL。
表使用 InnoDB 引擎，并设置字符集为 utf8mb4 以支持中文。

3. 发送请求并获取 JSON 数据

我们使用 requests 库向雪球 API 发送 HTTP 请求，并获取返回的数据：

复制代码

    import requests  # 用于发送 HTTP 请求
    
    def fetch_data(self, page):
        """从 API 获取股票数据，并返回 JSON 格式的结果"""
        url = f'https://stock.xueqiu.com/v5/stock/screener/quote/list.json?page={page}&size=90&order=desc&order_by=percent&market=CN&type=sh_sz'
        headers = {
            "cookie": "******",  # 替换为实际的 Cookie
            "user-agent": "******",  # 替换为实际的 User-Agent
        }
        response = requests.get(url=url, headers=headers)
        if response.status_code == 200:
            return response.json()
        else:
            print(f"请求失败，状态码：{response.status_code}")
            return None

API 请求：通过 GET 请求获取数据。
状态码检查：若返回 200，则表示请求成功，否则提示错误。

4. 处理并存储数据到 MySQL

我们将爬取到的股票数据存入数据库，确保每个字段与数据库表结构相匹配：

复制代码

    def process_and_store_data(self, data_list):
        """处理获取的数据，并存储到数据库"""
        for index in data_list:
            pe_ttm = index.get('pe_ttm', 0)
            if pe_ttm is None or pe_ttm > 9999999.999999:
                pe_ttm = None
    
            sql = """
               插入语句
            """
            values = (
                #提取数据
            )
            try:
                print(f"插入数据：{values}")
                self.cursor.execute(sql, values)
                self.conn.commit()
            except pymysql.MySQLError as e:
                print(f"插入数据错误：{e}")

数据校验：检查市盈率是否合理，避免错误数据插入。
SQL 语句：使用参数化查询，避免 SQL 注入。

5. 主函数与运行逻辑

爬取所有页面的数据并存入数据库：

复制代码

    def run(self):
        """主函数，爬取所有页面的数据并存储"""
        for page in range(1, 57):
            print(f"*********** 正在爬取第 {page} 页的数据 ************")
            json_data = self.fetch_data(page)
            if json_data:
                data_list = json_data.get('data', {}).get('list', [])
                if data_list:
                    self.process_and_store_data(data_list)
                else:
                    print(f"第 {page} 页无数据")

遍历爬取 56 页的数据，每页包含 90 条股票信息。

6. 关闭数据库连接

复制代码

    def close(self):
        """关闭数据库连接"""
        self.cursor.close()
        self.conn.close()
    
    if __name__ == '__main__':
    spider = StockSpider()  # 创建爬虫对象
    spider.run()  # 运行爬虫
    spider.close()  # 关闭数据库连接
    print("数据爬取完成")

资源释放：确保在程序结束时关闭数据库连接，避免资源泄漏。

四、总结与优化建议

优化建议

增加爬取间隔，防止 IP 被封。
使用多线程爬取以提升效率。
扩展功能

存储数据到 CSV 文件，方便后续分析。
增加数据清洗与去重逻辑。

五、运行效果

成功运行后，终端会打印插入的数据，并提示“数据爬取完成”。

六、参考资料

Requests 官方文档
PyMySQL 官方文档

全部评论 (0)

还没有任何评论哟~

Python 爬虫：爬取雪球股票数据并存储到 MySQL 数据库

一、项目概述与结果展示本文将通过Python实现一个爬虫项目，爬取雪球网的股票列表数据并将其存入MySQL数据库。你将学习到如何用requests发送HTTP请求获取数据，并用pymysql操作数据...

python爬虫实现股票数据存储_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储！...

Python爬虫可以说是好玩又好用了。现想利用Python爬取网页股票数据保存到本地csv数据文件中，同时想把股票数据保存到MySQL数据库中。需求有了，剩下的就是实现了。在开始之前，保证已经安装好...

爬取雪球网数据储存到数据库

importpymysql importrequests importjson classmysqlconnobject: 魔术方法,初始化,构造函数 definitself: self.db=pym...

Python爬虫：爬取小说并存储到数据库

爬取小说网站的小说，并保存到数据库第一步：先获取小说内容 1234567891011121314151617181920212223242526272829303132333435363738394...

python股票数据库_利用Python爬股票数据并存入数据库Mysql

直接上代码，小白也能爬股票......... importtushareasts importmysql.connector importre,time 创建所有股票的表格以及插入每支股票的近段时间的...

雪球网爬取数据并存入数据库

创建数据库连接 fromurllibimportrequest importjson importpymysql classmysqlconnectobject: 初始化的构造函数 definitse...

【python爬虫】用python爬取股票数据

这几天把学习通的python爬虫相关课程给刷完了，想去动手也实践一下，重温一下很久之前学过的东西然后发现实例2（爬淘宝那个）、实例3（爬股票那个），好像都有点问题。实例2是淘宝现在的反爬机制好像做的...

雪球网数据爬取到数据库

coding:utf8 frompymysqltextimportmysqlconnt importrequests,pymysql fromurllibimportrequest importjso...

python爬虫学习(股票数据爬取）

最近在学习python爬虫方面的知识，下面是做的一个简单爬虫示例。从沪深A股中爬取股票列表中的数据到本地用到的库：requests库，BeautifulSoup 爬取的链接为：<http://qu...

Python 爬虫 | 爬取股票概念数据

这段时间写了行业板块、涨跌停板数据，获取这些数据的目的就是想通过处理、分析这些数据把整个大盘的情况反馈给我，让我可以用最少的时间进行复盘（说白了就是懒得看，果然懒才是程序员的第一生产力）。这几天把这些...

是否确定退出登录?

Python 爬虫：爬取雪球股票数据并存储到 MySQL 数据库

一、项目概述与结果展示

结果展示

二、技术栈解析

三、代码实现与详细解读

1. 初始化数据库连接与表

2. 创建数据库和表

3. 发送请求并获取 JSON 数据

4. 处理并存储数据到 MySQL

5. 主函数与运行逻辑

6. 关闭数据库连接

四、总结与优化建议

五、运行效果

六、参考资料

全部评论 (0)

相关文章推荐

Python 爬虫：爬取雪球股票数据并存储到 MySQL 数据库

python爬虫实现股票数据存储_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储！...

爬取雪球网数据储存到数据库

Python爬虫：爬取小说并存储到数据库

python股票数据库_利用Python爬股票数据并存入数据库Mysql

雪球网爬取数据并存入数据库

【python爬虫】用python爬取股票数据

雪球网数据爬取到数据库

python爬虫学习(股票数据爬取）

Python 爬虫 | 爬取股票概念数据