NLP-新闻文本分类数据分析

阅读量：

NLP-新闻文本分类数据分析

读取数据并观察分布

复制代码

    train = pd.read_csv("train_set.csv", sep="\t")
    train.head(5)

查看数据集信息：

从上述可以看出, 该数据集仅包含两个字段, 共有20万个样本点, 并且在处理过程中未发现任何缺失值.

标签的分布呈现长尾特征，在进行预测时可能会导致结果集中在少数类别上。进而提出解决样本不平衡的方法以提升模型性能。

特征构建

目前主要运用的是经典的机器学习算法，在计算过程中采用了tf-idf与词频分析这两种技术手段，并将所得数据作为模型训练特征。

复制代码

    from sklearn.feature_extraction.text import CountVectorizer
    ngram_vectorizer = CountVectorizer(min_df=0.05,max_df=0.8,decode_error='replace')

复制代码

    from sklearn.feature_extraction.text import TfidfVectorizer
    tfidf = TfidfVectorizer()
    train = tfidf.fit_transform(train['text'])
    test = tfidf.transform(test['text'])

模型选择

当前应用的是一种lightgbm模型。主要原因包括该算法具有高效的训练速度以及可能具备的其他优势。最初采用了该算法作为基础模型。

复制代码

    # 模型训练
    from lightgbm import LGBMClassifier
    gbm=LGBMClassifier(eval_metric='auc')
    gbm.fit(train_x,train_y,eval_set=[(test_x,test_y)],verbose=True)
    pre=gbm.predict(test_x)
    f1_score(test_y,pre, average='macro')

线上分数

线上测试结果显示约92.5%的成功率，在整体效果上未达预期目标。未来工作重点将放在特征工程方面，并计划进一步挖掘潜在特征信息，并进行多维度的特征提取优化；针对模型架构的选择策略，则采用了深度学习框架进行深入研究。

全部评论 (0)

还没有任何评论哟~

NLP-新闻文本分类数据分析

NLP新闻文本分类数据分析读取数据并观察分布 train=pd.readcsvtrainset.csv,sep=\t train.head5 查看数据集信息：由此可见，数据集只有两列，一共20万条...

【NLP】新闻文本分类 ----数据读取及分析

【NLP】新闻文本分类文本分析句子分布分析句子分布结论文本分析文本类型分析字符分布断句分析分类新闻分析在上一节中，进行读取完成数据集后，还可以对数据集进行数据分析的操作。虽然对于非结...

【NLP】新闻文本分类

【NLP】新闻文本分类赛题理解和思路分析数据读取思路一：特征提取+分类器 TFIDF算法介绍 TFIDF实践步骤赛题理解和思路分析 ccccc 数据读取赛题以匿名处理后的新闻数据为赛题数据，...

【NLP】新闻文本分类-----Bert文本分类

【NLP】新闻文本分类Bert文本分类 Bert算法介绍基于Bert的文本分类 BertPretrain BertFinetune Bert算法介绍 Google在NAACL2018发表的论文中提出...

【NLP】新闻文本分类---FastText

【NLP】新闻文本分类FastText FastText文本分类算法介绍代码实现通过k折交叉检验进行调参 FastText文本分类算法介绍 FastText是一种典型的深度学习词向量的表示方法，它...

【NLP】天池新闻文本分类（二）——数据读取与数据分析

【NLP】天池新闻文本分类（二）——数据读取与数据分析前言数据读取数据分析分析结论前言 NLP之新闻文本分类挑战赛（赛题链接）。其实上一篇赛题理解时已经做了数据读取和分析，因为一般在分析之...

天池NLP赛事-新闻文本分类（二）——数据读取和数据分析

系列文章天池NLP赛事新闻文本分类（一）——赛题理解天池NLP赛事新闻文本分类（二）——数据读取和数据分析目录二、数据读取与数据分析 2.1数据读取 2.2数据分析 2.2.1句子长度分析 2...

NLP入门——天池新闻文本分类（2）数据读取与数据分析

NLP入门——天池新闻文本分类（2）数据读取与数据分析数据读取与数据分析学习目标数据读取数据分析 1.新闻文本长度 2.新闻类别分类 3.字符分布统计数据分析的结论本章作业 1.假设字符3...

python数据分析：新闻文本聚类

文本聚类文本聚类就是要在一堆文档中，找出哪些文档具有较高的相似性，然后可以针对这些相似性文档的聚合进行类别划分。文本聚类应用场景：提供大规模文档集进行类别划分并提取公共内容的概括和总览；找到潜在的各...

中文新闻分类数据集_NLP-新闻文本分类实战

一、赛题理解赛题名称：零基础入门NLP之新闻文本分类赛题目标：通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务：赛题以自然语言处理为背景...

是否确定退出登录?

NLP-新闻文本分类数据分析