自然语言处理中的Character Embedding技术

阅读量：

于2013年时,Tomas Mikolov提出了一种称为Word Embedding的技术,这种技术能够更有效地表达了单个词的意义,即为Word2Vec方法,并获得了语法与语义相似性上的最佳成绩。随后,提出了Doc2Vec方法,由此得到了Word以及Doc层面相应的嵌入方式。而比单个词更细致层次上,则是单个字符层面的存在

什么是character embedding？

引用量573

文中定义了70个字符，包括26个英文字母、10个数字、33个特殊字符和换行字符。

abcdefghijklmnopqrstuvwxyz0123456789 -,;.!?:’’’/|_@#$%ˆ&*˜‘±=<>()[]{}

引用量906

引用次数为906

在英语中（所有字母由26个构成），当考虑大小写字母时（数量变为52），而加入特殊符号则会增加更多的词汇数量。一旦这些字符被嵌入到模型中（每个词都能生成向量），即便是一个OOV词也能被表示出来。尽管如此，在这种情况下（模型仅能处理已见过的词汇），它仍然无法理解未见过的新词汇或拼写错误的情况。此外还具有很好的适应性特点（能够纠正拼写错误）、以及能够识别新的符号和未知术语的能力。

它胜过word2vec嵌入，在处理不常见的单词方面表现更为出色；这是因为后者由于缺乏足够的训练机会而难以有效处理这些罕见词汇。除了这点之外，在字符嵌入方面仅拥有少量向量元素的存在，则有助于降低整体模型复杂度的同时显著提升了性能（尤其是在速度指标上）。

什么时候用character embedding？

Text Classification
Language Model
Named Entity Recognition

如何使用？

Character Embedding

为字符列表创建一个索引。例如字母表中的A-Z字母以及一些特殊符号如@和#。
将每个字符映射为其对应的1-hot向量表示以构建序列模型。识别不清或空白的字符，则将其映射为全零向量。
通过三层一维卷积层（参数可调）来捕捉序列中的局部特征。

Sentence Embedding

CNN层后添加双向LSTM
LSTM之后添加dropout层

参考链接

Additionally, why is it essential to understand Character Embedding besides Word Embedding?

全部评论 (0)

还没有任何评论哟~

自然语言处理中的Character Embedding技术

在2013年的时候，TomasMikolov提出了wordembedding技术来更好的表示一个单词的向量，也就是word2vec，在当时也获得了语法和语义相似度上最好的结果。之后关于doc2vec也...

自然语言处理—初始自然语言处理技术—自然语言处理的前置技术

（一）正则表达式在NLP中的应用正则表达式简介正则表达式是一种定义了搜索模式的特征序列，主要是用于字符串的模式匹配，或是字符的匹配。正则表达式是处理NLP的最基本的手段之一。正则表达式的作用之一...

自然语言处理—初始自然语言处理技术—走进自然语言处理

（一）自然语言处理概念及发展什么是自然语言处理？自然语言处理（NLP）是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理、理解以及运用人类语言（如中文、英文等），达到人与计...

自然语言处理中的Word Embedding简介

本文参考自WhatAreWordEmbeddingsforText 简介 WordEmbedding可以将word转化为数值型词向量，便于后续机器学习和深度学习模型的训练。并且，word之间的相似性越...

自然语言处理之Word Embedding

WordEmbedding 在自然语言处理中词向量是很重要的，那什么是词向量呢？通常我们在做分类问题的时候大家应该都还记得我们会使用onehot编码，比如一共有5类，那么属于第二类的话，它的编码就是...

自然语言处理（NLP）技术

自然语言处理（NLP）技术是一种使计算机能够理解和处理自然语言的方法。NLP技术的原理可分为以下几个方面： 1. 分词：将文本切分成单词或字符的过程。分词的目的是将连续的文本转换为离散的单元，以便计算...

自然语言处理（NLP）技术

自然语言处理（NaturalLanguageProcessing，NLP）是人工智能领域中的一个重要分支，致力于使计算机能够理解、解释、生成人类语言。NLP技术涉及多个层面的语言处理，包括文本分析、语...

自然语言处理（NLP）技术

自然语言处理（NLP）技术是研究和开发计算机与人类自然语言交互的能力。下面是一些NLP技术的例子： 1. 机器翻译：NLP技术可以将一种语言翻译成另一种语言。例如，Google翻译和百度翻译使用NLP...

自然语言处理（NLP）技术

自然语言处理（NLP）技术是一种将人类语言与计算机进行交互的技术。以下是几个示例： 1. 文本分类：NLP技术可以用于对文本进行分类，例如将电子邮件分类为垃圾邮件或非垃圾邮件，将新闻文章分类为体育、政...

自然语言处理中的词嵌入技术

非常感谢您提供这个有趣的技术博客撰写任务。作为一位世界级的人工智能专家和计算机领域大师,我很荣幸能够为您撰写这篇题为自然语言处理中的词嵌入技术的专业技术博客文章。

是否确定退出登录?

自然语言处理中的Character Embedding技术

什么是character embedding？

什么时候用character embedding？

如何使用？

全部评论 (0)

相关文章推荐

自然语言处理中的Character Embedding技术

自然语言处理—初始自然语言处理技术—自然语言处理的前置技术

自然语言处理—初始自然语言处理技术—走进自然语言处理

自然语言处理中的Word Embedding简介

自然语言处理之Word Embedding

自然语言处理（NLP）技术

自然语言处理（NLP）技术

自然语言处理（NLP）技术

自然语言处理（NLP）技术

自然语言处理中的词嵌入技术