论文学习笔记03(Sequence to Sequence Learning with Neural Networks)
发布时间
阅读量:
阅读量
Sequence to Sequence Learning with Neural Networks
1.模型


Details:
(1)条件概率:p(y_1,...,y_{T'}|x_1,...,x_T)=\prod^{T'}_{t=1}p(y_t|v,y_1,...,y_{t-1})
input sentence:x_1,...,x_T—>v
目标:
计算\frac{1}{\mathcal{|S|}}\sum_{(T,S)\in\mathcal{S}}logp(T|S)
T:target sentence
S:source sentence
\mathcal{S}:training set
生成翻译:\widehat{T}=argmax_Tp(T|S)
即找概率最大的。
2.模型优点,克服了什么局限
(1)DNNs适用于输入和输出的向量的维度已经固定的问题,但sequence2sequence的翻译,输入和输出的句子的长度是不一定的。论文提出的模型克服了这个局限性(EOS(end-of-sentence):允许任意长度的句子)
(2)LSTM很适用于长句子,没有RNN的长期依赖问题。
发现:
将源句翻转时,LSTM效果更好(为什么?)
原因:短期依赖的引入
通常,将源句与目标句连接起来时,源句中每个单词离目标句中的对应单词比较远。
拓展:RNN的长期依赖问题
RNN是在有序的数据上进行学习,为了记住数据,RNN会产生对先前的记忆。
权重小于1:

权重大于1:

全部评论 (0)
还没有任何评论哟~
