使用PyTorch处理AG_NEWS新闻分类数据集

阅读量：

文章目录

如何利用PyTorch对AG_NEWS新闻分类数据集进行处理？本指南将详细介绍以下步骤：包括数据加载操作、文本分词过程、词汇表构建步骤以及预处理流水线的建立。

1. 数据加载及查看

利用PyTorch框架实现对AG-NEWS新闻分类数据集进行处理的主要步骤包括：1）数据加载步骤；2）文本分词流程；3）词汇表构建过程；4）预处理流水线设计。这些环节共同构成了完整的模型训练体系。

1. 数据加载与查看

复制代码

    from torchtext.datasets import AG_NEWS
    train_iter = AG_NEWS(root='../datasets', split='train')
    print("连续三个next(train_iter)得到的结果：")
    print(next(train_iter))
    print(next(train_iter))
    print(next(train_iter))

功能模块 ：导入AG_NEWS训练数据集，并输出前三个样本实例。
- 输出示例 ：每个样本以元组形式呈现，请看以下具体实例：
  复制代码
```
(3, "Wall St. Bears Claw Back Into the Black...")
(1, "Raging Storms Over The Pacific...")
(2, "Baseball World Series 2023 Highlights...")
```
- 注意说明 ：AG_NEWS分类标记范围在1至4之间，请具体分为以下几大类：
  - 1: World（全球）
  - 2: Sports（体育）
  - 3: Business（商业）
  - 4: Sci/Tec（科技与科学）

2. 分词器与词汇表构建

复制代码

    tokenizer = get_tokenizer('basic_english')  # 基础英文分词器（小写+按空格分割）
    train_iter = AG_NEWS(root='../datasets', split='train')  # 重新加载迭代器
    
    def yield_tokens(data_iter):
    for _, text in data_iter:
        yield tokenizer(text)  # 生成分词后的列表
    
    vocab = build_vocab_from_iterator(yield_tokens(train_iter), specials=["<unk>"])
    vocab.set_default_index(vocab["<unk>"])  # 未登录词映射到<unk>

分词器 ：对输入文本执行小写处理并进行空格分割（例如 "Hello World" 将被转换为 ["hello", "world"]）。
- 词汇表 ：基于训练数据生成的所有分词结果构建，并在遇到未知词汇时通过 <unk> 标识。
- 注意：在处理过程中重新加载 train_iter 可避免之前打印样本时的数据消耗。

3. 词汇表测试

复制代码

    print("vocab('Mary Had a Little Lamb'.lower().split())")
    print(vocab(['mary', 'had', 'a', 'little', 'lamb']))  # 手动分词结果
    
    print("vocab(tokenizer('Mary Had a Little Lamb'.lower()))")
    print(vocab(tokenizer('mary had a little lamb')))     # 分词器处理后的结果

输出：请输出每个词在词汇表中对应的索引列表。
- 作用：用于验证分词和词汇表的工作是否正常进行。

4. 预处理流水线

复制代码

    def text_pipeline(x):
    return vocab(tokenizer(x))  # 文本→分词→索引列表
    
    def label_pipeline(c):
    return int(c) - 1  # 标签1~4 → 0~3（适应模型输出）

流水线任务：将原始文本转换为模型能够识别和处理的具体索引序列。
- 标签处理任务：将标签调整为从零开始编码（PyTorch模型通常要求类别标签采用0到N-1的连续整数编码）。

5. 预处理测试

复制代码

    print("text_pipeline('Mary Had a Little Lamb'.lower())")
    print(text_pipeline('mary had a little lamb'))  # 输出索引列表
    
    print("label_pipeline('4')")
    print(label_pipeline('4'))  # 输出3（对应Sci/Tec）

验证结果 ：确保文本转换和标签调整符合预期。

潜在问题与改进

迭代器重启：在连续调用 train_iter 时，请确保始终重新加载数据集以避免信息丢失（代码已正确执行该操作）。
类别标记形式：假设数据集中类别标记以字符串形式表示（如 '3' 或 'three'），则需将其转换为整数形式；若实际标记已经是整数，则应调整 label_pipeline 进行相应的转换处理。
分词性能提升：目前项目中采用的是 basic_english 分词器这一较为简单的模型，在后续开发中建议采用BERT等先进的分词模型以提高处理效果。
文本序列长度一致性问题：当前开发过程中未涉及相关处理步骤（建议在训练前补充代码实现），但实际训练时需要注意这一问题并采取适当措施进行解决。

全部评论 (0)

还没有任何评论哟~

使用PyTorch处理AG_NEWS新闻分类数据集

文章目录如何使用PyTorch处理AGNEWS新闻分类数据集，主要包括数据加载、文本分词、词汇表构建以及预处理流水线的定义。 1\.数据加载与查看 2\.分词器与词汇表构建 3\.词汇表测试 4\....

【NLP】文本分类TorchText实战-AG_NEWS 新闻主题分类任务（PyTorch版）

AGNEWS新闻主题分类任务（PyTorch版）前言 1\.使用N元组加载数据 2\.安装TorchGPU&TorchText 3\.访问原始数据集迭代器 4\.准备数据处理管道 5\.生成数据批次...

pytorch--新闻标题数据集文本分类

1.数据预处理词嵌入先将字符处理为向量，我选择使用已经训练好的词嵌入。为什么可以使用别人训练好的词嵌入？比如：篮球，在不同语境下都是一样的意思，我们新闻标题分类任务，算是比较大众的任务，所以我...

使用Pytorch对数据集CIFAR-10分类处理

使用Pytorch对数据集CIFAR10进行分类，主要是以下几个步骤： 1.下载并预处理数据集 2.定义网络结构 3.定义损失函数和优化器 4.训练网络并更新参数 5.测试网络效果数据加载和预处理 ...

中文新闻分类数据集_NLP-新闻文本分类实战

一、赛题理解赛题名称：零基础入门NLP之新闻文本分类赛题目标：通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务：赛题以自然语言处理为背景...

CharTextCNN（AG数据集---新闻主题分类）

文章目录 CharTextCNN 一、文件目录二、语料集下载地址（本文选择AG）三、数据处理dataloader.py 四、模型（chartextcnn.py）五、训练和测试实验结果 Char...

中文新闻分类数据集_阿里天池赛-新闻文本分类 Task2 数据读取与数据分析

数据读取赛题数据虽然是文本数据，每个新闻是不定长的，但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。 importpandasaspd traindf=pd.readcs...

Pytorch用BERT对CoLA、新闻组文本数据集自然语言处理NLP：主题分类建模微调可视化分析...

原文链接：https://tecdat.cn/?p=38181 自然语言处理（NLP）领域在近年来发展迅猛，尤其是预训练模型的出现带来了重大变革。其中，BERT模型凭借其卓越性能备受瞩目。

路透社数据集——新闻主题多分类

文章目录 1.数据集及问题简介 2.加载数据集并探索数据 3.准备输入的数据 4.构建网络 5.编译网络 6.从训练集中留出验证集 7.训练模型 8.画出训练数据 9.根据训练数据，重新训练模型并测试...

【图像处理】PyTorch实战之CIFAR10数据集分类（LeNet分类器）

首先这是一个官方demo，PyTorch官网入门实现一个图像分类器下图是卷积，池化，全连接层在神经网络中的作用（分工）本文是学习B站深度学习与图像处理的up做的笔记本文参考主要如下： 1.B站宝...

是否确定退出登录?

使用PyTorch处理AG_NEWS新闻分类数据集

文章目录

1. 数据加载与查看

2. 分词器与词汇表构建

3. 词汇表测试

4. 预处理流水线

5. 预处理测试

潜在问题与改进

全部评论 (0)

相关文章推荐

使用PyTorch处理AG_NEWS新闻分类数据集

【NLP】文本分类TorchText实战-AG_NEWS 新闻主题分类任务（PyTorch版）

pytorch--新闻标题数据集文本分类

使用Pytorch对数据集CIFAR-10分类处理

中文新闻分类 数据集_NLP-新闻文本分类实战

CharTextCNN（AG数据集---新闻主题分类）

中文新闻分类 数据集_阿里天池赛-新闻文本分类 Task2 数据读取与数据分析

Pytorch用BERT对CoLA、新闻组文本数据集自然语言处理NLP：主题分类建模微调可视化分析...

路透社数据集——新闻主题多分类

【图像处理】PyTorch实战之CIFAR10数据集分类（LeNet分类器）

中文新闻分类数据集_NLP-新闻文本分类实战

中文新闻分类数据集_阿里天池赛-新闻文本分类 Task2 数据读取与数据分析