Python金融数据挖掘第7章复习思考题 3

阅读量：

有‘手机垃圾短信’数据集，将其放在文件中：sms_spam.csv，该文件共有5537行，2列，分别是类型(type,ham为非垃圾短信，spam为垃圾短信)和内容(text，短信的具体内容)。

(1)对该‘手机垃圾短信”数据集进行文本挖掘。

(2)划分非垃圾短信ham和垃圾短信spam，并分别作词云图。

复制代码

 '''

    
 3.有‘手机垃圾短信’数据集，将其放在文件中：sms_spam.csv，该文件共有5537行，2列，
    
 分别是类型(type,ham为非垃圾短信，spam为垃圾短信)和内容(text，短信的具体内容)。
    
 (1)对该‘手机垃圾短信”数据集进行文本挖掘。
    
 (2)划分非垃圾短信ham和垃圾短信spam，并分别作词云图。
    
 '''
    
  
    
 # 库
    
 import nltk
    
 import pandas as pd
    
 from nltk.tokenize import word_tokenize
    
 from nltk.stem import PorterStemmer
    
 from collections import Counter
    
  
    
 import jieba
    
 import jieba.analyse
    
 from os import path
    
 import imageio
    
 from ipykernel import kernelapp as app
    
 import matplotlib as mpl
    
 import matplotlib.pyplot as plt
    
 from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator
    
  
    
 # NLTK数据
    
 nltk.download('punkt')
    
 # 数据
    
 sms = pd.read_csv('sms_spam.csv')
    
 # 停用词
    
 stop=pd.read_csv('C:/Users/86186/Desktop/大二 下/数据挖掘/第7章/Estopwords.txt',sep='bucunzai',encoding='utf_8',header=None)
    
 stopwords=[' ']+list(stop[0])
    
  
    
 # 单行去除
    
 word2 = [] 
    
 for i in range(0,len(sms),1):
    
     j = word_tokenize(sms['text'][i])
    
     word2.append(j)
    
 word22 = []
    
 for j in range(0,len(word2),1):
    
     word21 = []
    
     for n in word2[j]:
    
     if n not in stopwords:
    
         word21.append(n)
    
     word22.insert(i,word21)
    
 print('单行去除停用词看word22')
    
  
    
 # 词干提取
    
 word3 = []
    
 stemmer=PorterStemmer()
    
 for i in range(0,len(word22),1):
    
     word31 = []
    
     for j in word22[i]:
    
     word31.append(stemmer.stem(j))
    
     word3.insert(i,word31)
    
 print('单行词干提取看word3')
    
  
    
 # 词频（前25）
    
 word_words=[x for x in word12 if len(x)>=2]
    
 counter1 = Counter(word_words)
    
 counter2 = Counter(word_words).most_common(25)
    
 print(counter2)
    
  
    
  
    
 # (2)
    
 # 分类
    
 ham = []
    
 for i in range(0,len(sms),1):
    
     if sms['type'][i] == 'ham':
    
     ham.append(sms['text'][i])
    
 spam = []
    
 for i in range(0,len(sms),1):
    
     if sms['type'][i] == 'spam':
    
     spam.append(sms['text'][i])
    
     
    
 ham1 = " ".join(ham)
    
 ham11 = word_tokenize(ham1)
    
 ham12 = []
    
 for word in ham11:
    
     if word not in stopwords:
    
     ham12.append(word)
    
 print('整体去除停用词看ham12')
    
  
    
 spam1 = " ".join(spam)
    
 spam11 = word_tokenize(spam1)
    
 spam12 = []
    
 for word in spam11:
    
     if word not in stopwords:
    
     spam12.append(word)
    
 print('整体去除停用词看spam12')
    
  
    
  
    
  
    
 # 使用词底图
    
 maskImg=imageio.imread('C:/Users/86186/Desktop/大二 下/数据挖掘/第7章/renwu.png')
    
 wc=WordCloud(font_path='C:/Windows/Fonts/simhei.ttf',background_color='white',
    
           max_words=10000,mask=maskImg,max_font_size=120,min_font_size=10,
    
           random_state=42,width=1200,height=900)
    
  
    
 # 词云函数
    
 def word__cloud(text):
    
     # 设置字体及规格
    
     plt.rcParams['font.sans-serif'] = ['SimHei']
    
     plt.rcParams['axes.unicode_minus'] = False
    
     plt.figure(figsize = (10,4))
    
     maskImg=imageio.imread('C:/Users/86186/Desktop/大二 下/数据挖掘/第7章/renwu.png')
    
     wc=WordCloud(font_path='C:/Windows/Fonts/simhei.ttf',background_color='white',
    
               max_words=10000,mask=maskImg,max_font_size=120,min_font_size=10,
    
               random_state=42,width=1200,height=900)
    
     #生成text词云图
    
     wc.generate(text) 
    
     image_colors=ImageColorGenerator(maskImg)
    
     print(image_colors)
    
     plt.imshow(wc)
    
     plt.axis('off')
    
     plt.title('词云图',fontsize = 20)
    
     plt.show()
    
     wc.to_file('词云图.jpg')
    
     
    
 word__cloud(ham1)
    
 word__cloud(spam1)

全部评论 (0)

还没有任何评论哟~

Python金融数据挖掘第7章复习思考题 3

有‘手机垃圾短信’数据集，将其放在文件中：smsspam.csv，该文件共有5537行，2列，分别是类型type,ham为非垃圾短信，spam为垃圾短信和内容text，短信的具体内容。 1对该‘手机垃...

Python金融数据挖掘第6章复习思考题3

3、对于泰坦尼克号的数据集，试分析幸存与否与独立登船是否相关alone数据列，进一步地，可以分析与年龄段age数据列是否相关。引入库 importmatplotlib.pyplotasplt imp...

Python金融数据挖掘复习思考题第2章

第1题 1、题目生成一个55的矩阵，其元素是区间[1,10]中的随机整数。 2、代码 importnumpyasnp a=np.random.randint1,10,25.reshape5,5 pr...

Python金融数据挖掘第6章复习思考题2

2、使用Pandasdatareader获取世界银行数据库中美国USA、瑞典SWE、瑞士CHE三个国家近20年的NY.GDP.PCAP.KD数据，作图分析。

Python金融数据挖掘第八章复习思考题2

一、问题设有一份购物篮数据basketdata.txt，包括两部分内容。第一部分是1000名顾客的个人信息，含7个变量：会员卡号cardid、消费金额value、支付方式pmethod、性别sex...

Python金融数据挖掘第八章复习思考题1

一、问题医院礼品店已完成5项交易，购买记录清单如表83所示，请使用Apriori算法进关联规则分析。 1使用数字代替商品完成第3列； 2计算购买“鲜花”的支持度； 3计算购买“慰问卡”的支持度； 4...

Python金融数据挖掘第6章复习思考题1

1、使用Pandasdatareader获取任意两只股票近三个月的交易数据，作出收盘价的变动图像。使用EDU新东方、APEI美国公共教育、BABA阿里巴巴为例。雅虎不能用了，将‘getdataya...

Python金融数据挖掘期末复习

祝大家考试顺利一，题型和分值二，知识点整理 1，数据挖掘 ①数据挖掘概念：从大量数据中通过算法搜索隐藏其中的有效信息的过程 ②算法分类：关联分析：Apriori算法时间序列分析：简单移动分析，...

Python金融数据挖掘第八章第2节代码实例（3）

目录 1、构建数据集，数据对象 2、产生1项集函数，输入为交易记录D，输出为1项集C1 3、输出为频繁1项集ret1、所有1项集的支持度suD 4、拼接函数，输入为Ck1、K参数，表示生成k项集 5、...

Python金融数据挖掘

一、随便说说？使用底层code构建（包、模块——模板）。实验是干啥的呀？我也不知道,yinweimeiyoutingke。 def层层封装: 1、欧式距离计算（手工计算、） 2、数学语言到机器语言...

是否确定退出登录?

Python金融数据挖掘 第7章 复习思考题 3

全部评论 (0)

相关文章推荐

Python金融数据挖掘 第7章 复习思考题 3

Python金融数据挖掘 第6章 复习思考题3

Python金融数据挖掘 复习思考题 第2章

Python金融数据挖掘 第6章 复习思考题2

Python金融数据挖掘 第八章 复习思考题2

Python金融数据挖掘 第八章 复习思考题1

Python金融数据挖掘 第6章 复习思考题1

Python金融数据挖掘期末复习

Python金融数据挖掘 第八章 第2节 代码实例 （3）

Python金融数据挖掘

Python金融数据挖掘第7章复习思考题 3

Python金融数据挖掘第7章复习思考题 3

Python金融数据挖掘第6章复习思考题3

Python金融数据挖掘复习思考题第2章

Python金融数据挖掘第6章复习思考题2

Python金融数据挖掘第八章复习思考题2

Python金融数据挖掘第八章复习思考题1

Python金融数据挖掘第6章复习思考题1

Python金融数据挖掘第八章第2节代码实例（3）