基于深度学习的文本分类
导入库pandas。
从库sklearn.metrics导入函数f1_score。
生成一个新数据框dataframe_train,并将其赋值为从指定路径读取的CSV文件的内容。
将'dataframe_train'中的'label'列转换为字符串类型后存储在新列'label_ft'中。
提取'dataframe_train'中的'text'和'label_ft'两列的数据,并将其中除了最后5, 249867行以外的所有行为数据保存到名为'train.csv'的文件中。
读取文件
导入fasttext库
构建监督学习模型
训练模型并生成预测结果
评估预测性能
@param input: 训练数据文件路径
@param lr: 学习率
@param dim: 向量维度
@param ws: cbow模型时使用
@param epoch: 次数
@param minCount: 词频阈值, 小于该值在初始化时会过滤掉
@param minCountLabel: 类别阈值,类别小于该值初始化时会过滤掉
@param minn: 构造subword时最小char个数
@param maxn: 构造subword时最大char个数
@param neg: 负采样
@param wordNgrams: n-gram个数
@param loss: 损失函数类型, softmax, ns: 负采样, hs: 分层softmax
@param bucket: 词扩充大小, [A, B]: A语料中包含的词向量, B不在语料中的词向量
@param thread: 线程个数, 每个线程处理输入数据的一段, 0号线程负责loss输出
@param lrUpdateRate: 学习率更新
@param t: 负采样阈值
@param label: 类别前缀
@param verbose: ??
@param pretrainedVectors: 预训练的词向量文件路径, 如果word出现在文件夹中初始化不再随机
@return model object

