pytorch nlp分类模型训练过程

阅读量：

一、数据预处理

1.首先获得需要分类的训练集
2.获取一个对训练集中的句子进行拆分的tokenizer
3.写一个方法将句子拆分后的结果产生的单词，建立一个词汇表
4.现在已经有了词汇表，需要训练的句子，这时只需要将句子进行分词后，将分词后的结果传入到词汇表，获取句子中每个单词的token
5.需要对label也进行处理

二、建立dataloader

主要是写一个函数，在建立dataloader时使用

复制代码

    # 对分组后的数据进行处理
    def collate_fn(batch):
    #     trian_iter中的数据都是单词
    #    比如 句子 标签
    # 这里将一个batch_size的数据参数 传入函数
    # 在将数据进行训练之前，将单词，标签等 都处理成数字对应的形式，这样模型才能对数据进行训练
    #     该函数需要返回的结果是
    #  1. batch_size * sentence_max_legth 的 tensor类型的 句子处理后的结果
    #  2. batch_size * lable长度的 tensor类型的 label处理后的结果
    text_list = []
    lable_list = []
    # 句子最大长度
    # 求出句子最大长度，在得到最终的text_list时 由于每个句子的长度都是不一样的
    # 需要将句子的长度都处理为长度相同的句子
    max_length = 0
    for (_label,_text) in batch:
        text_list.append(get_token_from_vocab(_text))
        lable_list.append(get_label(_label))
    
        if len(_text) > max_length:
            max_length = len(_text)
    
    text_list = [index + [0]*(max_length-len(index)) for index in text_list]
    return (torch.tensor(lable_list).to(torch.int64), torch.tensor(text_list).to(torch.int32))

三、建立模型

建立一个简单的模型

复制代码

    # 第三步 建立模型
    class Model(nn.Module):
    def __init__(self,vocab_size,embed_dim,num_class):
        super(Model,self).__init__()
        # 产生一个维度为 vocab_size * embed_dim大小的word_embedding 这样就通过每一行 来 唯一的确定一个单词
        self.embedding = nn.EmbeddingBag(vocab_size, embed_dim, sparse=False)
        # 建立一个全连接层 full connection
        self.fc = nn.Linear(embed_dim, num_class)
    
    def forward(self,text_list):
        # 根据传来的batch 得到词嵌入
        embedded = self.embedding(text_list) # shape: [bs, embedding_dim]
        # 通过全连接层进行计算
        return self.fc(embedded)

四、使用模型进行训练并验证

复制代码

    # 第四部 训练
    def train(train_dataloader,eval_dataloader,model,optimizer,loss_fn,epochs,device):
    model=model.to(device)
    total_acc = 0
    start_time = time.time()
    
    for epoch in range(epochs):
        num_batches = len(train_dataloader)
        for i, (y,X) in enumerate(train_dataloader):
            X = X.to(device)
            y = y.to(device)
            pred = model(X)
            loss = loss_fn(pred, y)
            optimizer.zero_grad()
            loss.backward()
            # 梯度裁剪
            torch.nn.utils.clip_grad_norm_(model.parameters(), 0.1)
            optimizer.step()
            # 计算总的准确率
            total_acc += (pred.argmax(1) == y).sum().item()
            # 表示已经训练了多少个batch_size 一个batch_size = 64
            step = num_batches*(epoch) + i + 1
    
            if step % 300 == 0:
                elapsed = time.time() - start_time
                print(f"train_time:{elapsed} epoch_index: {epoch}, 已经训练batch_size: {step}, ema_loss: {loss.item()}")
    
        print("start to do evaluation...")
        model.eval()
        eval_acc = 0
        eval_total_account = 0
        for i, (y,X) in enumerate(eval_dataloader):
            X = X.to(device)
            y = y.to(device)
            eval_pred = model(X)
            eval_loss = loss_fn(eval_pred, y)
            eval_acc += (eval_pred.argmax(1) == y).sum().item()
            eval_total_account += y.shape[0]
        eval_acc = eval_acc / eval_total_account
        print(f"eval_loss: {eval_loss.item()}, eval_acc: {eval_acc}")
        model.train()
    print("done!")

五、调用方法

复制代码

    # 第五步 开始训练
    if __name__ == "__main__":
    vocab_size = len(vocab)
    embed_dim = 64
    BATCH_SIZE = 64
    epoches = 10
    model = Model(vocab_size,embed_dim,4)
    train_iter = AG_NEWS(root='data', split='train') # Dataset类型的对象
    eval_iter = AG_NEWS(root='data', split='test') # Dataset类型的对象
    train_dataloader = DataLoader(to_map_style_dataset(train_iter), batch_size=BATCH_SIZE, collate_fn=collate_fn, shuffle=True)
    eval_dataloader = DataLoader(to_map_style_dataset(eval_iter), batch_size=8, collate_fn=collate_fn)
    optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
    loss_fn = torch.nn.CrossEntropyLoss()
    train(train_dataloader,eval_dataloader,model,optimizer,loss_fn,epoches,device)

全部评论 (0)

还没有任何评论哟~

pytorch nlp分类模型训练过程

一、数据预处理 1.首先获得需要分类的训练集 2.获取一个对训练集中的句子进行拆分的tokenizer 3.写一个方法将句子拆分后的结果产生的单词，建立一个词汇表 4.现在已经有了词汇表，需要训练的句...

NLP pytorch 模型训练过程

通过学习https://www.bilibili.com/video/BV16S4y1P7PN，完成笔记记录引入必要的包 importtorch importnumpyasnp importtorc...

pytorch训练过程调用tensorflow模型

在pytorch代码训练里，想要调用tf之前训练好的模型，报错 RuntimeError:cudaruntimeerror100:noCUDAcapabledeviceisdetectedat/opt...

【NLP 37、预训练模型的发展过程】

目录一、ELMo 二、GPT 三、Bert 四、预训练模型的发展过程五、国内公司跟进预训练工作 1.Erniebaidu 2.ErnieTsinghua 六、GPT2 七、UNILM 八、Tran...

PyTorch深度学习模型训练流程：（一、分类）

自己写了个封装PyTorch深度学习训练流程的函数，实现了根据输入参数训练模型并可视化训练过程的功能，可以方便快捷地检验一个模型的效果，有助于提高选择模型架构、优化超参数等工作的效率。发出来供大家参考...

黑马NLP实战 --- 新闻分类模型训练

关于《黑马程序员》课程中NLP中训练新闻分类模型最近在学习NLP的相关知识，找了资料比较全的黑马程序员中讲解NLP的课程，可是其中有一部分实战新闻主题分类实战项目中，我发现黑马程序员代码有大两的错误...

fast.ai PyTorch框架训练图像分类模型

fast.aiPyTorch框架训练图像分类模型项目概述 fast.ai是一个基于PyTorch的深度学习框架，旨在通过简洁的代码快速构建先进模型。它提供了许多高级功能，如图像数据包、学习率查找（L...

fast.ai PyTorch框架训练图像分类模型

在Fast.ai和PyTorch框架下训练图像分类模型的过程可以分为几个关键步骤，包括数据准备、模型构建、训练、评估和预测。以下是详细的步骤和方法： 1\.数据准备需要准备和预处理图像数据集。这包括...

fast.ai PyTorch框架训练图像分类模型

PyTorch预训练模型图像分类之一

我们的任务是，把pytorch的torchvision.models模块中现有的分类模型包括权重，拿来。然后用一张图片去预测类别。提前去下载好squeezenet11f364aa15.pth，放到自...

是否确定退出登录?

pytorch nlp分类模型训练过程

一、数据预处理

二、 建立dataloader

三、建立模型

四、使用模型进行训练并验证

五、调用方法

全部评论 (0)

相关文章推荐

pytorch nlp分类模型训练过程

NLP pytorch 模型训练过程

pytorch训练过程调用tensorflow模型

【NLP 37、预训练模型的发展过程】

PyTorch深度学习模型训练流程：（一、分类）

黑马NLP实战 --- 新闻分类模型训练

fast.ai PyTorch框架训练图像分类模型

fast.ai PyTorch框架训练图像分类模型

fast.ai PyTorch框架训练图像分类模型

PyTorch预训练模型图像分类之一

二、建立dataloader