『LDA主题模型』用Python实现主题模型LDA

阅读量：

用 Python 实现主题模型 LDA 。最后打印出 文档-主题 分布以及 主题-词 分布。

事先准备

安装 numpy 和 gensim 包

文本数据集包含多个样本，并且每个样本都经历了分词任务以及去停用词的过程。这些处理后的结果被提取并存储至 $comments.txt$ 中。

提示：如需了解相关内容，请参考我的另一篇文章中文文本的分词、去标点符号、去停用词、词性标注

综合代码

必须自行设定参数 num_topics 和 num_show_term ，其中前者代表主题数量，后者则用于指示每个主题列出多少个关键词。

复制代码

    import numpy as np
    from gensim import corpora, models
    
    
    if __name__ == '__main__':
    # 读入文本数据
    f = open('comments.txt', encoding='utf-8')  # 输入已经预处理后的文本
    texts = [[word for word in line.split()] for line in f]
    f.close()
    M = len(texts)
    print('文本数目：%d 个' % M)
    
    # 建立词典
    dictionary = corpora.Dictionary(texts)
    V = len(dictionary)
    print('词的个数：%d 个' % V)
    
    # 计算文本向量
    corpus = [dictionary.doc2bow(text) for text in texts]  # 每个text对应的稀疏向量
    
    # 计算文档TF-IDF
    corpus_tfidf = models.TfidfModel(corpus)[corpus]
    
    # LDA模型拟合
    num_topics = 10  # 定义主题数
    lda = models.LdaModel(corpus_tfidf, num_topics=num_topics, id2word=dictionary,
                          alpha=0.01, eta=0.01, minimum_probability=0.001,
                          update_every=1, chunksize=100, passes=1)
    
    # 所有文档的主题
    doc_topic = [a for a in lda[corpus_tfidf]]
    print('Document-Topic:')
    print(doc_topic)
    
    # 打印文档的主题分布
    num_show_topic = 5  # 每个文档显示前几个主题
    print('文档的主题分布：')
    doc_topics = lda.get_document_topics(corpus_tfidf)  # 所有文档的主题分布
    idx = np.arange(M)  # M为文本个数，生成从0开始到M-1的文本数组
    for i in idx:
        topic = np.array(doc_topics[i])
        topic_distribute = np.array(topic[:, 1])
        topic_idx = topic_distribute.argsort()[:-num_show_topic - 1:-1]  # 按照概率大小进行降序排列
        print('第%d个文档的前%d个主题：' % (i, num_show_topic))
        print(topic_idx)
        print(topic_distribute[topic_idx])
    
    # 每个主题的词分布
    num_show_term = 10  # 每个主题显示几个词
    for topic_id in range(num_topics):
        print('主题#%d：\t' % topic_id)
        term_distribute_all = lda.get_topic_terms(topicid=topic_id)  # 所有词的词分布
        term_distribute = term_distribute_all[:num_show_term]  # 只显示前几个词
        term_distribute = np.array(term_distribute)
        term_id = term_distribute[:, 0].astype(np.int)
        print('词：', end="")
        for t in term_id:
            print(dictionary.id2token[t], end=' ')
        print('概率：', end="")
        print(term_distribute[:, 1])
    
    # 将主题-词写入一个文档 topword.txt，每个主题显示20个词
    with open('topicword.txt', 'w', encoding='utf-8') as tw:
        for topic_id in range(num_topics):
            term_distribute_all = lda.get_topic_terms(topicid=topic_id, topn=20)
            term_distribute = np.array(term_distribute_all)
            term_id = term_distribute[:, 0].astype(np.int)
            for t in term_id:
                tw.write(dictionary.id2token[t] + " ")
            tw.write("\n")

参考

小象学院机器学习教程

全部评论 (0)

还没有任何评论哟~

『LDA主题模型』用Python实现主题模型LDA

用Python实现主题模型LDA。最后打印出文档主题分布以及主题词分布。导航事先准备综合代码参考事先准备安装numpy和gensim包文本数据，每一行是一篇文章，而且经过了分词、去停用词...

LDA主题模型Python实现

如果你有一个文本文件，那么以下这段代码可以帮助你实现LDA主题模型。 importjieba fromnltk.corpusimportstopwords importpyLDAvis.gensimm...

lda主题模型python实现篇_主题模型TopicModel：通过gensim实现LDA

使用pythongensim轻松实现lda模型。 gensim简介 gemsim是一个免费python库，能够从文档中有效地自动抽取语义主题。gensim中的算法包括：LSALatentSemanti...

python LDA主题模型

准备数据使用路透社新闻数据的一个子集：R8，包含8类新闻。本文直接读取清洗后的R8，清洗内容包含：去掉特殊字符，标点符号，停用词和低频词，且英文文本不需要分词。

LDA主题模型及Python实现

主题模型是用于发现文档集合中隐含主题的统计模型，主题可以定义为“文档集中具有相同词境的词的集合模式”，比如，将“健康”、“病人”、“医院”、“药品”等词汇集合成“医疗保健”主题，将“农场”、“玉米”、...

LDA主题模型

一、LDA主题模型在之前利用文本相似度解决推荐系统冷启动问题的博文中已简单介绍了LDA主题模型的使用，现在来介绍一下LDA主题模型的原理。 LatentDirichletAllocation模型简称...

主题模型LDA

多项分布和狄利克雷分布多项分布某随机实验如果有k个可能结局A1、A2、…、Ak，分别将他们的出现次数记为随机变量X1、X2、…、Xk，它们的概率分布分别是p1，p2，…，pk，那么在n次采样的总结...

LDA主题模型

LDA模型简介 LDA指两者算法，一种叫线性判别分析，一种叫文档主题生成模型，在NLP中我们当然指的是后者。 LDA是一种基于统计的生成模型，它可以根据语料库生成主题模型，并根据这个模型来预测一篇文章...

LDA主题模型

近期做了一个关于主题分析的重新学习，感觉只看不实操真的就和白学了一样。也趁着这股劲把关于LDA主题模型的东西总结一下，这些是目前我能够考虑到的所有事情，以后看到再做补充（新手小白请指正我的错误，十分感...

LDA主题模型

概率图模型LDA（LatentDirichletAllocation）用于推测文档的主题分布。它将文档集中的每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主...

是否确定退出登录?

『LDA主题模型』用Python实现主题模型LDA

导航

事先准备

综合代码

参考

全部评论 (0)

相关文章推荐

『LDA主题模型』用Python实现主题模型LDA

LDA主题模型Python实现

lda主题模型python实现篇_主题模型TopicModel：通过gensim实现LDA

python LDA主题模型

LDA主题模型及Python实现

LDA主题模型

主题模型LDA

LDA主题模型

LDA主题模型

LDA主题模型