爬取B站弹幕并生成HTML格式的词云图

阅读量：

一、导入模块部分

二、输入cid部分

三、爬取弹幕内容、设置列表、数据字典及词云图的创建

四、输出结果示例

（一）RUN窗格对话：

（二）Pycharm相应内容

（三）按照保存地址保存好的HTML文件

（四）双击文件，使用浏览器打开的内容

五、全部代码

一、导入模块部分

首先是需要5个模块：

1⃣️requesets

2⃣️bs4

3⃣️jieba

4⃣️pyecharts 1.8.1

5⃣️lxml（虽然没有使用import，但是这个要装，在代码中会用到）

复制代码

 #引入requests请求模块

    
 import requests
    
 #引入bs4模块
    
 from bs4 import  BeautifulSoup
    
 #引入结巴库
    
 import jieba
    
 #引入词云模块
    
 from pyecharts.charts import WordCloud

二、输入cid部分

复制代码

 #手动输入需要爬取的弹幕cid

    
 cid  = str(input("请输入要爬取视频的cid:"))
    
  
    
 #设置弹幕api
    
 url = f"https://comment.bilibili.com/{cid}.xml"
    
  
    
 #获取链接内容赋值给response
    
 response = requests.get(url)
    
  
    
 #确定网页代码
    
 response.encoding = response.apparent_encoding
    
  
    
 #通过.text返回网页xml文本内容
    
 xml = response.text
    
  
    
 #使用lxml方法分析xml中的节点赋值给soup
    
 soup = BeautifulSoup(xml,"lxml")
    
  
    
 #使用find_all方法查找在soup中为"d"的节点
    
 content_all = soup.find_all("d")

其中cid是弹幕评论API的一部分，查找方式如下图：

将选中内容的cid代码部分复制下来，运行的时候粘贴就行。

三、爬取弹幕内容、设置列表、数据字典及词云图的创建

⚠️要注意更改词云图保存的地址⚠️

复制代码

 #为弹幕数量设置一个初始值

    
 comment_num = 0
    
  
    
 #创建一个空白列表给词云
    
 wordList = []
    
 #遍历content_all中的所有节点
    
 for comment in content_all:
    
     #将每次遍历到的节点的内容，转换为字符串赋值给data
    
     data = comment.string
    
  
    
     #视小于2且大于10的评论为非弹幕
    
     if len(data) >= 2 and len(data) <=10:
    
     # 使用jieba.lcut()将data进行分词，赋值给words
    
     words = jieba.lcut(data)
    
  
    
     #将切好的词放入列表当中
    
     wordList = wordList + words
    
  
    
     #每次成功判断，计算一次有效弹幕数
    
     comment_num += 1
    
  
    
     #输入当前遍历的弹幕内容
    
     print(data)
    
     #否则
    
     else:
    
     #跳过并继续
    
     continue
    
 #设置一个空字典
    
 wordDict = {}
    
  
    
 #从列表中遍历已经分好的词
    
 for word in wordList:
    
     #如果词的长度大于1，怎判断为一个词
    
     if len(word) > 1:
    
     #如果这个词没有在字典的键中
    
     if word not in wordDict.keys():
    
         #设置这个键的初始值为1
    
         wordDict[word] = 1
    
     #否则
    
     else:
    
         #这个词的值+1
    
         wordDict[word] += 1
    
  
    
 #把WordCloud赋值给wordCloud
    
 wordCloud = WordCloud()
    
  
    
 #添加图标设置。data——pair会警告，但无影响
    
 wordCloud.add( series_name=f"{comment_num}条弹幕的词云图",
    
            data_pair = wordDict.items(),
    
            word_size_range=[20,80])
    
  
    
 #设置保存的地址
    
 wordCloud.render(f"/Users/huangliangyu/Desktop/{comment_num}条弹幕的词云图.html")
    
 #格式化输出统计数字
    
 print(F"该视频共有{comment_num}条有效弹幕")

四、输出结果示例

（一）RUN窗格对话：

（二）Pycharm相应内容

（三）按照保存地址保存好的HTML文件

（四）双击文件，使用浏览器打开的内容

五、全部代码

复制代码

 #引入requests请求模块

    
 import requests
    
 #引入bs4模块
    
 from bs4 import  BeautifulSoup
    
 #引入结巴库
    
 import jieba
    
 #引入词云模块
    
 from pyecharts.charts import WordCloud
    
  
    
 #手动输入需要爬取的弹幕cid
    
 cid  = str(input("请输入要爬取视频的cid:"))
    
  
    
 #设置弹幕api
    
 url = f"https://comment.bilibili.com/{cid}.xml"
    
  
    
 #获取链接内容赋值给response
    
 response = requests.get(url)
    
  
    
 #确定网页代码
    
 response.encoding = response.apparent_encoding
    
  
    
 #通过.text返回网页xml文本内容
    
 xml = response.text
    
  
    
 #使用lxml方法分析xml中的节点赋值给soup
    
 soup = BeautifulSoup(xml,"lxml")
    
  
    
 #使用find_all方法查找在soup中为"d"的节点
    
 content_all = soup.find_all("d")
    
  
    
 #为弹幕数量设置一个初始值
    
 comment_num = 0
    
  
    
 #创建一个空白列表给词云
    
 wordList = []
    
 #遍历content_all中的所有节点
    
 for comment in content_all:
    
     #将每次遍历到的节点的内容，转换为字符串赋值给data
    
     data = comment.string
    
  
    
     #视小于2且大于10的评论为非弹幕
    
     if len(data) >= 2 and len(data) <=10:
    
     # 使用jieba.lcut()将data进行分词，赋值给words
    
     words = jieba.lcut(data)
    
  
    
     #将切好的词放入列表当中
    
     wordList = wordList + words
    
  
    
     #每次成功判断，计算一次有效弹幕数
    
     comment_num += 1
    
  
    
     #输入当前遍历的弹幕内容
    
     print(data)
    
     #否则
    
     else:
    
     #跳过并继续
    
     continue
    
 #设置一个空字典
    
 wordDict = {}
    
  
    
 #从列表中遍历已经分好的词
    
 for word in wordList:
    
     #如果词的长度大于1，怎判断为一个词
    
     if len(word) > 1:
    
     #如果这个词没有在字典的键中
    
     if word not in wordDict.keys():
    
         #设置这个键的初始值为1
    
         wordDict[word] = 1
    
     #否则
    
     else:
    
         #这个词的值+1
    
         wordDict[word] += 1
    
  
    
 #把WordCloud赋值给wordCloud
    
 wordCloud = WordCloud()
    
  
    
 #添加图标设置。data——pair会警告，但无影响
    
 wordCloud.add( series_name=f"{comment_num}条弹幕的词云图",
    
            data_pair = wordDict.items(),
    
            word_size_range=[20,80])
    
  
    
 #设置保存的地址
    
 wordCloud.render(f"/Users/huangliangyu/Desktop/{comment_num}条弹幕的词云图.html")
    
 #格式化输出统计数字
    
 print(F"该视频共有{comment_num}条有效弹幕")

全部评论 (0)

还没有任何评论哟~

爬取B站弹幕并生成HTML格式的词云图

目录一、导入模块部分二、输入cid部分三、爬取弹幕内容、设置列表、数据字典及词云图的创建四、输出结果示例（一）RUN窗格对话：（二）Pycharm相应内容 ...

爬取B站弹幕生成词云

一、爬取弹幕 importrequests importjson importre 下载页面 defdownloadpageurl: headers= 'UserAgent':'Mozilla/5.0...

python爬取B站弹幕数据并生成词云图

1.分析目的：用户在观看视频时会产生丰富的行为数据，如弹幕。通过分析这些行为数据，可以了解用户的兴趣偏好、观看习惯等 2.请求数据 3.这里选取首页的热门视频，打开网页的开发者模式，点击网络刷新页面，...

python爬取b站弹幕并制作词云_Python爬取B站弹幕并制作词云图

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。基本开发环境 Python3.6 Pycharm 相关模块的使用 requests在cmd中...

爬取B站视频弹幕生成词云

效果预览以B站UP主可乐三太火影1720集解说视频20200807弹幕爬取为例，生成词云代码 coding:utf8 @Time:2020/8/822:11 @Author:马拉小龙虾 @File...

python自动获取B站弹幕并生成词云

这是关于python自动获取B站弹幕并生成词云的小例子 1、思路用requests获取B站的网页内容用BS来解析网页内容，并获得弹幕将弹幕保存本地txt中读取txt采用wordcloud生成词...

用python爬取B站弹幕并绘制词云

最近在B站发现一个弹琵琶的小姐姐，真的是人美歌甜啊啊啊，所以打算爬取她的视频来分析弹幕同时制作词云。查找相关信息之后发现，爬取B站弹幕的API接口有两个，分别是 https://api.bilibi...

selenium爬取B站的弹幕制作词云

B站的弹幕的api是：<https://api.bilibili.com/x/v1/dm/list.so?oid=26495963 oid是视频的id 这个api用谷歌的开发者工具是看不到内容的，建议...

B站何同学毕业视频弹幕爬取+生成词云

<iframesrc='https://player.bilibili.com/player.html?aid=759395091'allowfullscreen='true'</iframe 【何同...

Python爬取B站视频弹幕---词云图制作

Python爬取B站视频弹幕一、简介：二、爬取方式 1.如何获取视频的cid？ 2.爬取下载弹幕 3.调用定义的类并解析XML文档 4.将文本内容保存为文本文档三、绘制词云图 1.绘制词云图代码...

是否确定退出登录?

爬取B站弹幕并生成HTML格式的词云图

一、导入模块部分

二、输入cid部分

三、爬取弹幕内容、设置列表、数据字典及词云图的创建

四、输出结果示例

（一）RUN窗格对话：

（二）Pycharm相应内容

（三）按照保存地址保存好的HTML文件

（四）双击文件，使用浏览器打开的内容

五、全部代码

全部评论 (0)

相关文章推荐

爬取B站弹幕并生成HTML格式的词云图

爬取B站弹幕生成词云

python爬取B站弹幕数据并生成词云图

python爬取b站弹幕并制作词云_Python爬取B站弹幕并制作词云图

爬取B站视频弹幕生成词云

python自动获取B站弹幕并生成词云

用python爬取B站弹幕并绘制词云

selenium爬取B站的弹幕制作词云

B站何同学毕业视频 弹幕爬取+生成词云

Python爬取B站视频弹幕---词云图制作

B站何同学毕业视频弹幕爬取+生成词云