数据分析可视化系列（五）弹幕词云图

阅读量：

弹幕词云图

使用的词云库
核心代码
- 1. 正则表达式
- 2. 标准库
- - 多维数组转换为一维数组
- 3. 词云库
- 4. pandas库
完整代码
结果截图

使用的词云库

jieba中文分词库
wordcloud词云库

核心代码

1. 正则表达式

方法	函数	备注
re.compile(pattern)	编译
re.sub(repl, string)	替换	repl：编译对象，string：文本

2. 标准库

多维数组转换为一维数组

from itertools import chain

复制代码

    list_2d = [[1,2,3],[3,4,5]]
    list_1d = list(chain.from_iterable(li_2d))
    print(list_1d)

3. 词云库

WordCloud

font_path: 字体路径, width 图像宽度, height 图像高度, max_words 最大词语数量 , background_color 背景颜色（其他参数请自行查找）

复制代码

    wc = WordCloud(font_path=r"C:/Windows/Fonts/SimHei.ttf", width=800, height=600, max_words=50,
               background_color="white")
    # 根据词频制作词云图，可以减少重复词
    # c: 是一个字典
    img = wc.generate_from_frequencies(c)
    plt.figure(figsize=(9, 6))
    plt.axis("off")
    plt.imshow(img)
    plt.show()

4. pandas库

完整代码

复制代码

    import re
    from collections import Counter
    from itertools import chain
    
    import jieba
    import matplotlib.pyplot as plt
    import pandas as pd
    from wordcloud import WordCloud
    
    pattern = "[，!\"#, -. : ; <=>^_`~!，。?、￥… ():【《》‘’“”\s]+"
    # 预编译，减少重复匹配
    re_obj = re.compile(pattern)
    
    
    def clear(text):
    "使用编译的模式（提高效率）:替换弹幕中的所有符号"
    return re_obj.sub("", text,)
    
    
    def get_stopword():
    "使用集合来获取停用词表的词组"
    s = set()
    with open(r"./百度停用词表.txt", encoding="utf-8") as f:
        for line in f:
            s.add(line.strip())  # 去掉每行末尾的换行符
    return s
    
    
    def remove_stopword(words):
    "删除分词结果中含有停用词表的词组"
    stopword = get_stopword()
    return [word for word in words if word not in stopword]
    
    
    # 黑体显示中文字体
    plt.rcParams["font.family"] = "SimHei"
    # 显示负号
    plt.rcParams["axes.unicode_minus"] = False
    
    # 读取csv文件
    df = pd.read_csv("./2021-01-19弹幕池.csv")
    data = df.copy()
    
    # 链式函数
    # 先替换所有标点符号
    # 再通过jieba分词获得列表
    # 最后删除在停用词表中的词语
    data["内容"] = data["内容"].apply(lambda x: re_obj.sub("", x)).apply(
    lambda x: jieba.cut(x)).apply(remove_stopword)
    # print(data["内容"])
    # print(data.sample(10))
    
    # Series对象转换为列表
    li_2d = data["内容"].tolist()
    # 将二维列表扁平化为一维列表
    li_1d = list(chain.from_iterable(li_2d))
    print(f"总词汇量:{len(li_1d)}")
    # Counter用于统计
    c = Counter(li_1d)
    print(f"不重复词汇数量:{len(c)}")
    common = c.most_common(15)
    print(f"词频排名在前15名：{common}")
    
    # 词频统计
    vocabulary, frequency = [], []
    for v, f in common:
    vocabulary.append(v)
    frequency.append(f)
    
    # 绘制柱状图
    plt.figure(figsize=(12, 5))
    plt.title("排名前15的词")
    plt.bar(vocabulary, frequency)
    
    
    # 需要指定字体的位置,否则中文无法正常显示。
    wc = WordCloud(font_path=r"C:/Windows/Fonts/SimHei.ttf", width=800, height=600, max_words=50,
               background_color="white")
    
    # 根据词频制作词云图，可以减少重复词
    img = wc.generate_from_frequencies(c)
    plt.figure(figsize=(9, 6))
    plt.axis("off")
    plt.imshow(img)
    plt.show()

结果截图

全部评论 (0)

还没有任何评论哟~

数据分析可视化系列（五）弹幕词云图

弹幕词云图使用的词云库核心代码 1\.正则表达式 2\.标准库多维数组转换为一维数组 3\.词云库 4\.pandas库完整代码结果截图使用的词云库 1.jieba中文分词库 2.word...

python采集火热弹幕数据并做词云图可视化分析

前言嗨喽，大家好呀这里是爱看美女的茜茜呐又到了学Python时刻这里写目录标题前言知识点介绍: 环境介绍: 代码实现: 代码词云图尾语💝 知识点介绍: 爬虫基本思路流程 request...

python采集火热弹幕数据并做词云图可视化分析

嗨喽，大家好呀又到了学Python时刻知识点介绍: 爬虫基本思路流程 requests模块的使用 pandas保存表格数据 pyecharts做词云图可视化环境介绍: python3.8 pyc...

数据分析可视化系列（三）B站视频弹幕爬虫

B站视频弹幕爬虫相关操作如何寻找oid 完整代码文件截图相关操作如何寻找oid 1.按F12，点击展开 2.点击查看历史弹幕，点击日期 3.找到含有oid的url 完整代码 !/usr/bi...

python带你采集爆火动漫弹幕,并且做词云图可视化分析

前言😋 大家早好、午好、晚好吖代码提供者:青灯教育巳月目录前言😋 知识点介绍: 环境介绍: 如果安装python第三方模块: 案例: 实现代码: 代码导入模块 1\.发送请求 2\.获取数...

Python 爬取哔站视频弹幕并实现词云图可视化

嗨喽，大家好呀这里是爱看美女的茜茜呐环境介绍: python3.8解释器 pycharm编辑器第三方模块: requestspipinstallrequests protobufpipinstal...

python b站弹幕分析_【python】B站弹幕数据分析及可视化（爬虫+数据挖掘)

成果展示项目地址爬取弹幕可以看我之前写的这篇文章：10行代码下载B站弹幕下载代码 download.py '''依赖模块 pipinstallrequests ''' importre imp...

Python数据可视化——词云图

一、配置环境要生成词云图，必备的插件是wordcloud。课堂上给出了两种安装插件的方法。一是通过调用命令行，输入pip3installwordcloud进行安装。二是下载whl文件，通过pip3i...

Python对B站弹幕爬取统计+词云可视化

一、获取视频oid值第一步，找到想要爬取的视频页面，按F12进入开发者模式第二步，在Network中搜索oid，并按F5进行页面刷新，获得视频的oid值二、输入代码 importrequests...

Python大作业——弹幕数据分析(获取url cid 弹幕画出词云)

首先要知道我们要做什么，要是茫无目的那就说明都做不了，我们这次的数据分析步骤： ①获取视频url ②获取视频cid ③获取视频弹幕第一步：获取视频url 解析我在弹幕里直接写了，可以自己看一看，我...

是否确定退出登录?

数据分析可视化系列（五）弹幕词云图

弹幕词云图

使用的词云库

核心代码

1. 正则表达式

2. 标准库

多维数组转换为一维数组

3. 词云库

4. pandas库

完整代码

结果截图

全部评论 (0)

相关文章推荐

数据分析可视化系列（五）弹幕词云图

python采集火热弹幕数据并做词云图可视化分析

python采集火热弹幕数据并做词云图可视化分析

数据分析可视化系列（三）B站视频弹幕爬虫

python带你采集爆火动漫弹幕,并且做词云图可视化分析

Python 爬取 哔站视频弹幕 并实现词云图可视化

python b站弹幕分析_【python】B站弹幕数据分析及可视化（爬虫+数据挖掘)

Python数据可视化——词云图

Python对B站弹幕爬取统计+词云可视化

Python大作业——弹幕数据分析(获取url cid 弹幕 画出词云)

Python 爬取哔站视频弹幕并实现词云图可视化

Python大作业——弹幕数据分析(获取url cid 弹幕画出词云)