Advertisement

python爬取商品评论制作词云图

阅读量:

这里选择京东的商品页面,打开页面源代码查看评论来源

打开页面的检查,点击网络,刷新一下评论,选择一条评论复制,查看所在的位置

可以看到京东商品下面的评论再 comment下面的content中

开始爬取评论

具体步骤:

1.指定url网址

这里的url为评论所在地方的请求头的url

2.发送请求,访问网址

这里使用requests方法

3.获取响应数据

4.持久化存储,保存在数据库或本地

这里先爬取五页的内容,保存为“评论.txt”文件

复制代码
 import requests

    
  
    
 for page in range (5):
    
     url = 'https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1701702903029&loginType=3&uuid=122270672.1700201624854349584463.1700201624.1701691523.1701702895.4&productId=100075315791&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1&bbtf=&shield='
    
     data = {
    
     'productId': '100075315791',
    
     'score':'0',
    
     'sortType':'5',
    
     'page': page,
    
     'pageSize': '10',
    
     'isShadowSku': '0',
    
     'rid': '0',
    
     'fold': '1'
    
  
    
     }
    
     headers={
    
         'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
    
     }
    
     response = requests.get(url=url,headers=headers)
    
     content= '\n'.join([i['content'] for i in response.json()['comments']])
    
     with open('评论.txt',mode='a',encoding='utf-8') as f:
    
     f.write(content)
    
     print(content)
    
    
    
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-17/IYTje36AiGmMxRNvsLPHw2bX4F70.png)

查看评论内容

下面进行词云图显示

这里用python中自带的jieba库进行分词处理,将句子中的词提取出来

设置停止词,我这里设置了 stopword={'这个','很','的','用','了'}这些。将词云图生成为png图片文件

复制代码
 import jieba

    
 import wordcloud
    
 f = open('评论.txt',encoding='utf-8')
    
 text = f.read()
    
 txt = ' '.join(jieba.lcut(text))
    
 print(txt)
    
 wc = wordcloud.WordCloud(
    
     width=1000,
    
     height=700,
    
     font_path='msyh.ttc',
    
     background_color='white',
    
     stopwords={'这个','很','的','用','了'},  #设置停用词
    
     scale=15
    
 )
    
 wc.generate(txt)
    
 wc.to_file('词云.png')
    
    
    
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-17/m2uhWgA1d3x07kSrtHZ5FqfLIpBJ.png)

查看文件结果

全部评论 (0)

还没有任何评论哟~