BERT模型介绍
BERT 模型
BERT源自Vaswani等(2017)所记载的基础实现的多层双向Transformer编码模块。该系统采用双路径Transformer架构,在每一层都进行上下文语境特征信息的综合分析和学习。
1、输入表示
BERT模型的输入表示能在一个token序列中清晰地表达单个文本句子或一对文本。对于给定的一个token,在融合其对应的token embeddings、segment embeddings以及position embeddings后作为模型输入使用。具体如下:
(1)对于token embeddings使用WordPiece嵌入和30,000个token的词汇表。
(2)通过学习位置编码机制,将各个词的位置信息转化为特征向量形式的具体过程在于:具体而言,则用于表示每个词在其句子中的位置关系;此外还规定了一个最大可处理序列长度限定在512个token以内;值得注意的是,在输入序列的第一个词上附加了一个特殊的分类嵌入标记[CLS];而其对应的最后一个位置上的隐藏状态向量则被用作整个文本进行分类任务时所需的聚合顺序表示。
(3)将这些句子整合成一个序列,在两种不同的模式下辨别它们的区别。首先采用[SEP]标记将两个子句区分开来。同时,在第一个子句的每个token中融入学习得到的sentence A,在第二个子句的每个token中融入学习得到的sentence B
(4)对于单个句子输入,只使用 sentence A嵌入。
2、遮蔽语言模型
BERT是一种双向作用的语言模型工具,在自然语言处理领域具有重要地位。该语言模型能够同时分析词语的前后语境关系,在特定任务中展现出卓越的表现力与适应性。为了达到这一目标,本研究采用了以下策略:通过随机遮蔽(masking)部分输入token来训练模型以准确识别并预测这些被遮蔽的token序列。其中80%的比例会被替换成[Mask]标记符号,在这当中有8成的比例会被替换成其他同义词或不同类别的词汇而剩余10%则会保持原有形式不变。这种设计背后的原因在于遮蔽标记的具体应用本身会对后续的学习过程产生影响,在实际应用中我们发现其对语言理解能力的影响程度可以忽略不计。此外在具体的实验设计中我们还引入了一些参数调节机制以此来优化最终的结果表现效果
3、下一句预测
遮蔽语言模型主要针对的是单词级别的训练;然而,在涉及大量基于句子级别的任务时,则要求语言模型能够理解和分析不同句子之间的关联性;这种能力将促进下游的任务中对句子间关系的理解,并特别适用于BERT等系统中著名的"下一句预测"(Next Sentence Prediction)任务;其基本思路是通过预训练的方式专注于"二元化下的后续判断"问题;具体而言,在训练过程中会选取两个候选文本段落A和B;其中50%的情况下,B将来自整个语料库中的随机抽取段落;通过这样的设计与训练机制,在后续应用时可以有效识别出正确的后续文本段落
4、微调
通过上述方法使BERT模型得以预训练对于特定的目标任务构建一个新的模型将其与一个附加输出层相结合按照BERT模型规定的标准格式导入训练数据并从头到尾地微调所有的参数
BERT模型优点:
Bert模型基于自监督学习方法,在大规模无标记的数据集上进行预训练,并采用基于Transformer的编码器架构。该模型通过注意力机制将任意两个单词之间的距离转化为向量表示。这种设计有效地解决了自然语言处理中长距离依赖性问题的同时也能够提取出文本中的丰富语义信息。
资料收集于网络资源。
