python数据分析：新闻文本聚类

阅读量：

该文本介绍了文本聚类的基本概念及其应用场景，并详细描述了使用TF-IDF方法进行词向量转换以及K均值聚类算法的具体实现过程。内容包括对新闻数据的获取、分词、向量化、聚类以及结果分析等步骤，并附有完整的Python代码示例及其运行结果展示。

文本聚类

文本聚类就是在给定的一组文档中识别出具有较高相似性的文档集合，并基于此进行分类。
在应用层面, 文本聚类主要用于对大规模的文档集合进行分类划分并提取内容概要; 同时通过分析各文档之间的潜在相似度来实现分类判别与修正工作, 从而减少冗余阅读。
通常而言, 在传统的聚类分析方法中(包括其他类似算法), 主要处理的是基于定量数据的应用场景。
对于纯文字型的内容而言, 在缺乏定量特征的情况下无法直接应用这些算法。

使用TF-IDF方法做word to vector

将单词转化为向量（Word to Vector）。首先需要去除一些不需要的词汇，并在创建词向量模型时指定这些去除项。然后通过调用sklearn库中的TfidfVectorizer类来构建词向量模型，并调用fit_transform方法对评论中的关键词进行转换。

stop_words：设定为自定义的过滤词汇表。
tokenizer：配置使用结巴分词器。
use_idf：将TF-IDF方法启用以进行权重计算。

实现

从新浪财经首页当天新闻内容中提取分词结果，并建立相应的词向量模型。基于关键词的kmeans聚类方法被应用，将这些文本数据按照类别标签进一步分类处理：

复制代码

    # 导入库
    import numpy as np
    import pandas as pd
    from sklearn.feature_extraction.text import TfidfVectorizer  # 基于TF-IDF的词频转向量库
    from sklearn.cluster import KMeans
    import jieba.posseg as pseg
    import newspaper
    import requests  # 导入爬虫库
    from bs4 import BeautifulSoup
    import datetime as dt
    today = dt.datetime.today().strftime("%Y-%m-%d")  # 过去今天时间
    
    # 中文分词
    def jieba_cut(comment):
    word_list = []  # 建立空列表用于存储分词结果
    seg_list = pseg.cut(comment)  # 精确模式分词[默认模式]
    for word in seg_list:
        if word.flag in ['ns', 'n', 'vn', 'v', 'nr']:  # 选择属性
            word_list.append(word.word)  # 分词追加到列表
    return word_list
    # 获取新闻内容
    def get_news():
    response = requests.get('https://finance.sina.com.cn')
    html = response.content.decode('utf-8')
    soup = BeautifulSoup(html, 'lxml')
    all_a = soup.find_all('a')
    comment_list = []  # 建立空列表用于存储分词结果
    
    for a in all_a:
        try:
            url = a['href']
            if ('finance.sina.com.cn' in url)&(today in url):
                article = newspaper.Article(url, language='zh')
                # 下载文章
                article.download()
                # 解析文章
                article.parse()
                # 对文章进行nlp处理
                article.nlp()
                # 获取文章的内容
                article_words = "".join(article.keywords)
                comment_list.append(article_words)
        except:pass
    return comment_list
    
    comment_list = get_news()
    # print(comment_list)
    # word to vector
    # 加载停用词
    stop_words = [line.strip() for line in open('stopWord2.txt', encoding='gbk').readlines()]
    vectorizer = TfidfVectorizer(stop_words=stop_words,  tokenizer=jieba_cut,  use_idf=True)  # 创建词向量模型
    X = vectorizer.fit_transform(comment_list)  # 将评论关键字列表转换为词向量空间模型
    # K均值聚类
    model_kmeans = KMeans(n_clusters=3)  # 创建聚类模型对象
    model_kmeans.fit(X)  # 训练模型
    # 聚类结果汇总
    cluster_labels = model_kmeans.labels_  # 聚类标签结果
    word_vectors = vectorizer.get_feature_names()  # 词向量
    word_values = X.toarray()  # 向量值
    comment_matrix = np.hstack((word_values,  cluster_labels.reshape(word_values.
    shape[0], 1)))  # 将向量值和标签值合并为新的矩阵
    word_vectors.append('cluster_labels')  # 将新的聚类标签列表追加到词向量后面
    comment_pd = pd.DataFrame(comment_matrix, columns=word_vectors)  # 创建包含词向量和聚类标签的数据框
    comment_pd.to_csv('comment.csv')
    print(comment_pd.head(1))  # 打印输出数据框第1条数据
    # 聚类结果分析
    comment_cluster1 = comment_pd[comment_pd['cluster_labels'] == 1].drop('cluster_labels', axis=1)  # 选择聚类标签值为1的数据，并删除最后一列
    word_importance = np.sum(comment_cluster1, axis=0)  # 按照词向量做汇总统计
    print(word_importance.sort_values(ascending=False)[:5])   # 按汇总统计的值做逆序排序并打印输出前5个词

结果如下：

复制代码

       4s店   一事   一体   一况  一分钱       ...         龙庆  龙虎榜   龚宇  龚梦泽  cluster_labels
    0  0.0  0.0  0.0  0.0  0.0       ...        0.0  0.0  0.0  0.0             0.0
    
    [1 rows x 9359 columns]
    市场    6.062049
    基金    5.774565
    经济    4.110287
    银行    3.512937
    企业    3.502570
    dtype: float64

全部评论 (0)

还没有任何评论哟~

python数据分析：新闻文本聚类

文本聚类文本聚类就是要在一堆文档中，找出哪些文档具有较高的相似性，然后可以针对这些相似性文档的聚合进行类别划分。文本聚类应用场景：提供大规模文档集进行类别划分并提取公共内容的概括和总览；找到潜在的各...

NLP-新闻文本分类数据分析

NLP新闻文本分类数据分析读取数据并观察分布 train=pd.readcsvtrainset.csv,sep=\t train.head5 查看数据集信息：由此可见，数据集只有两列，一共20万条...

新闻文本聚类

http://74.125.155.132/scholar?q=cache:x2h4e3WvjZYJ:scholar.google.com/+%E6%B1%89%E8%AF%AD%E6%96%B0%E...

中文新闻分类数据集_NLP-新闻文本分类实战

一、赛题理解赛题名称：零基础入门NLP之新闻文本分类赛题目标：通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务：赛题以自然语言处理为背景...

【NLP】新闻文本分类 ----数据读取及分析

【NLP】新闻文本分类文本分析句子分布分析句子分布结论文本分析文本类型分析字符分布断句分析分类新闻分析在上一节中，进行读取完成数据集后，还可以对数据集进行数据分析的操作。虽然对于非结...

中文新闻分类数据集_阿里天池赛-新闻文本分类 Task2 数据读取与数据分析

数据读取赛题数据虽然是文本数据，每个新闻是不定长的，但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。 importpandasaspd traindf=pd.readcs...

中文文本分类-新闻分类[数据挖掘]

对新闻文本（10类）进行文本分类，通过准确率、召回率、f1score等指标对分类结果进行分析。 python版本：python3.6 分类方法：朴素贝叶斯需导入的相关库 importos impor...

天池新闻文本分类——数据读取与数据分析

目录数据读取数据分析句子长度分析新闻类别分布字符分布统计数据分析的结论作业数据读取赛题数据虽然是文本数据，每个新闻是不定长的，但任然使用csv格式进行存储。因此可以直接用Pandas...

小项目（文本数据分析）--新闻分类任务

数据 importpandasaspd importjieba 数据一小部分的新闻数据 dfnews=pd.readtable'val.txt',names=['category','theme','...

用几个新闻聚合平台API获取新闻文本数据（python版本）

1\.使用NewsData的newsdataapi包获取新闻数据，当前免费账号content完整，但在2024年1月15日后会折叠，一次最多只能查10条，需要设置下一页的页码（字符串）才能查其他数据，...

是否确定退出登录?

python数据分析：新闻文本聚类

文本聚类

使用TF-IDF方法做word to vector

实现

全部评论 (0)

相关文章推荐

python数据分析：新闻文本聚类

NLP-新闻文本分类数据分析

新闻文本聚类

中文新闻分类 数据集_NLP-新闻文本分类实战

【NLP】新闻文本分类 ----数据读取及分析

中文新闻分类 数据集_阿里天池赛-新闻文本分类 Task2 数据读取与数据分析

中文文本分类-新闻分类[数据挖掘]

天池新闻文本分类——数据读取与数据分析

小项目（文本数据分析）--新闻分类任务

用几个新闻聚合平台API获取新闻文本数据（python版本）

中文新闻分类数据集_NLP-新闻文本分类实战

中文新闻分类数据集_阿里天池赛-新闻文本分类 Task2 数据读取与数据分析