中文新闻标题分类

阅读量：

复制代码

    import os
    import sys
    import pickle
    import logging
    
    logging.basicConfig(
    format='>>> %(asctime)s %(levelname)s %(message)s',
    datefmt='%Y-%m-%d %H:%M:%S',
    level=logging.INFO,
    stream=sys.stdout,
    # force=True,
    )
    
    import numpy as np
    from sklearn.naive_bayes import MultinomialNB
    from sklearn.linear_model import PassiveAggressiveClassifier
    from sklearn.feature_extraction.text import TfidfVectorizer
    
    def load_txt(path, mode):
    '''
    TODO
    from random import shuffle
    '''
    with open(path, mode='rt', encoding='utf-8') as f:
        lines = f.readlines()
    if mode == 'tr':
        xl,yl= [],[]
        for line in lines:
            line = line.strip()
            parts = line.split('\t')
            if len(parts) == 2:
                string,lbl = parts
                xl.append(string)
                yl.append(int(lbl))
        return xl,yl
    elif mode == 'te':
        xl = []
        for line in lines:
            line = line.strip()
            xl.append(line)
        return xl
    else:
        raise KeyError
    
    def load_data():
    logging.info('-> load data')
    if os.path.exists('./data/dtr.pkl') and os.path.exists('./data/dte.pkl'):
        with open('./data/dtr.pkl', mode='rb') as f:
            dxtr,dytr = pickle.load(f)
        with open('./data/dte.pkl', mode='rb') as f:
            dxte = pickle.load(f)
    else:
        dxtr,dytr = load_txt('./data/dtr.txt', mode='tr')
        dxtr0,dytr0 = load_txt('./data/dtr.dev.txt', mode='tr')
        dxtr.extend(dxtr0)
        dytr.extend(dytr0)
        dxte = load_txt('./data/dte.txt', mode='te')
        with open('./data/dtr.pkl', mode='wb') as f:
            pickle.dump((dxtr,dytr), f)
        with open('./data/dte.pkl', mode='wb') as f:
            pickle.dump(dxte, f)
    return (dxtr,dytr),dxte
    
    def tfidf(xtr,xte,ltr,lte):
    logging.info('-> tfidf')
    if os.path.exists(f'./data/tfidf-{ltr}-{lte}.pkl'):
        with open(f'./data/tfidf-{ltr}-{lte}.pkl', mode='rb') as f:
            return pickle.load(f)
    else:
        assert ltr <= len(xtr) and lte <= len(xte)
        para = {'input': 'content', 'encoding': 'utf-8', 'decode_error': 'strict', 'strip_accents': None, 'lowercase': True, 'preprocessor': None, 'tokenizer': None, 'stop_words': None, 'token_pattern': '(.)', 'ngram_range': (1, 8), 'analyzer': 'word', 'max_df': 1.0, 'min_df': 2, 'max_features': None, 'vocabulary': None, 'binary': False, 'dtype': np.float64, 'norm': 'l2', 'use_idf': True, 'smooth_idf': True, 'sublinear_tf': True}
        vectorizer = TfidfVectorizer(**para)
        allvec = vectorizer.fit_transform(xtr[:ltr]+xte[:lte])
        with open(f'./data/tfidf-{ltr}-{lte}.pkl', mode='wb') as f:
            pickle.dump((allvec[:ltr],allvec[-lte:],), f)
        return allvec[:ltr],allvec[-lte:]
    
    def model(model_class,para,xtr,ytr,xte,ltr,lte):
    logging.info('-> model')
    assert ltr <= xtr.shape[0] and ltr <= len(ytr) and lte <= xte.shape[0]
    clf = model_class(**para)
    clf.fit(xtr[:ltr],ytr[:ltr])
    return clf.predict(xte[:lte])
    
    def pac(xtr,ytr,xte,ltr,lte):
    para = {'max_iter':1024, 'n_jobs':-1}
    return model(PassiveAggressiveClassifier,para,xtr,ytr,xte,ltr,lte)
    
    def nb(xtr,ytr,xte,ltr,lte):
    para = {}
    return model(MultinomialNB,para,xtr,ytr,xte,ltr,lte)
    
    def gen_sub_file(yte,lte):
    logging.info('-> gen sub file')
    assert lte <= len(yte)
    with open('./data/191300000.txt', mode='wt') as f:
        for idx in range(lte):
            f.write(str(yte[idx])+'\n')
    return None
    
    def main():
    logging.info('===== START =====')
    ltr,lte = 190000,10000
    (xtr,ytr),xte = load_data()
    ztr,zte = tfidf(xtr,xte,ltr,lte,)
    yte = pac(ztr,ytr,zte,ltr,lte,)
    gen_sub_file(yte,lte,)
    logging.info('=====  END  =====')
    return None
    
    if __name__ == '__main__':
    main()

在这里插入图片描述

bert代码(pytorch&transformers)和数据集
(运行平台: 华为云, modelarts, pytorch1.8-cuda10.2-cudnn7-ubuntu18.04, GPU: 1*V100(32GB)|CPU: 8核 64GB.)

全部评论 (0)

还没有任何评论哟~

中文新闻标题分类

importos importsys importpickle importlogging logging.basicConfig format='%asctimes%levelnames%messa...

Paddle2.0实现中文新闻文本标题分类

Paddle2.0实现中文新闻文本标题分类中文新闻文本标题分类Paddle2.0版本基线（非官方）调优小建议数据集地址任务描述数据说明提交答案代码思路说明数据集解压数据处理数据读取...

python 新闻标题分类_NLPCC2017(中文)新闻标题分类示例代码以及数据描述

NLPCC2017新闻标题分类代码运行环境 python2.7最好用anaconda2 tensorflow1.0.0gpu版本或者cpu版本建议操作系统:Linux Linux上的环境配置可以参...

roberta融合模型创新中文新闻文本标题分类

项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《往期经典推荐》项目名称 1.【基于CNNRNN的影像报告生成】 2.【卫星图像道路检测DeepLabV3Plus模...

句子分类_Bert做新闻标题文本分类

本文介绍一下如何使用bertseq2seq框架很轻松的做文本分类任务～框架地址在： https://github.com/920232796/bertseq2seqgithub.com 上面还有很多...

pytorch--新闻标题数据集文本分类

1.数据预处理词嵌入先将字符处理为向量，我选择使用已经训练好的词嵌入。为什么可以使用别人训练好的词嵌入？比如：篮球，在不同语境下都是一样的意思，我们新闻标题分类任务，算是比较大众的任务，所以我...

中文新闻分类数据集_NLP-新闻文本分类实战

一、赛题理解赛题名称：零基础入门NLP之新闻文本分类赛题目标：通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务：赛题以自然语言处理为背景...

《中文新闻信息分类标准》编制原则

《中文新闻信息分类标准》编制原则 2006060911:51:38 《中文新闻信息分类标准》编制原则 1范围《分类》规定了中文新闻信息分类体系和分类代码。《分类》规定了中文新闻信息分类方法的一般原...

头条新闻标题分类——数据分析

开课吧代码实战笔记整理，侵删为什么要关心表格横轴，纵轴的长度？因为要把数据送进模型，肯定要把数据向量化，我们需要加速计算的话，我们一次要送进多维向量，那么向量肯定要一样长为什么要关注数据的方差，...

新闻文章分类

记录一下自然语言处理课程的作业。一、爬取数据集 1.爬取差别比较明显的五个类别 importmath importos importurllib.request importre frombs4im...

是否确定退出登录?

中文新闻标题分类

全部评论 (0)

相关文章推荐

中文新闻标题分类

Paddle2.0实现中文新闻文本标题分类

python 新闻标题分类_NLPCC2017(中文)新闻标题分类示例代码以及数据描述

roberta融合模型创新中文新闻文本标题分类

句子分类_Bert做新闻标题文本分类

pytorch--新闻标题数据集文本分类

中文新闻分类 数据集_NLP-新闻文本分类实战

《中文新闻信息分类标准》编制原则

头条新闻标题分类——数据分析

新闻文章分类

中文新闻分类数据集_NLP-新闻文本分类实战