Advertisement

Read, Attend and Comment: A Deep Architecture for Automatic News Comment Generation 读书笔记

阅读量:

Read, Attend and Comment: A Deep Architecture for Automatic News Comment Generation 读书笔记

介绍

论文引用:
Yang Z et al. Read, Pay Attention to Context and Add Comments: A Complex Structure for Automated Generation of News Comments[J]. arXiv preprint arXiv:1909.11974, 2019.
获取途径:https://arxiv.org/pdf/1909.11974.pdf

该研究团队开发了一种新闻评论自动化生成的深层架构体系。该体系整合了信息摘要模块和评论生成模块。其中信息摘要模块由三层结构构成:基础信息提取层、多源信息融合层和评论倾向预测层。具体而言,在基础信息提取层中运用自然语言处理技术对新闻内容进行初步解析;在多源信息融合层中通过深度学习算法对不同来源的信息进行综合分析;在评论倾向预测层中基于统计学习方法建立倾向性评分模型以辅助判断评论方向。实验采用公开数据集进行评估,并与现有多种评论生成方法进行了对比实验。结果表明该系统在准确率、流畅度等多个指标上均优于传统方法。

主要工作

  1. 构建了一个包含两个子网络的新闻评论生成系统,并命名为"阅读-参与-评论"的过程。
    2. 开发了一种基于端到端学习方案的协同优化机制,并针对这两个子网络设计并实现了协同优化机制。
    3. 通过在两组典型数据集上的实验分析,验证了所提模型在新闻评论生成领域的性能优越性。

使用的数据集

腾讯新闻数据集(2018年)

获取该数据集的详细信息链接:https://ai.tencent.com/upload/PapersUploads/article_commenting.tgz

关于数据集的介绍在以下这篇论文中有提及

Qin, Lianhui, et al. propose an automated approach for article commentary generation that effectively combines both the task of generating insightful comments and the associated dataset for training and evaluation.

该论文地址:https://arxiv.org/pdf/1805.03668v1.pdf

以下是我在论文中提取的研究者对于某类新闻评论类型的分类评价体系,在该体系下评论质量的等级划分越高则其理论深度与论述逻辑完整性越强。相关细节可在附表1中查阅

在这里插入图片描述

表1 腾讯新闻数据集类型评判标准

类别 标准

| 5| 具有深度
引人入胜
深入的见解
新增的观点 |

4 与重要观点紧密相连
2 通顺且语法正确的但缺乏实质意义的内容
1 难以理解且充满了无效符号的评论(其中包含错误)

通过从雅虎抓取的新闻文章和评论的英文数据集

方法

问题定义

有一个数据集如下 D = {\{(T_i,B_i,C_i)\}} _{i=1}^N

数据集D中包含了N个三元组,在这些三元组中以(T_i, B_i, C_i)的形式存在。其中的第i个三元组由三个部分组成:其中T_i代表新闻标题内容;而B_i则是与之相关的新闻正文信息;最后的c_ii 则包含了对应的评论内容。

目标 是从数据集D中估算概率分布P(C|T,B);然后依据输入(T,B),进而生成一条评论C。

模型
在这里插入图片描述

此模型由两个组件构成:阅读网络与生成网络。其中阅读模块则依次在表示层处理新闻标题与正文内容,并在此基础上完成信息整合工作。随后,在融合层中将标题信息融入正文内容中以构建全面的文章摘要。接着,在预测阶段从文本中筛选出关键片段,并结合这些片段与标题信息反哺生成系统输出评论内容。

将问题中的P(C|T,B)进一步扩展为
P(C|T,B) = P(S|T,B)·P(C|S,T)
其中S=( s_1,…,s_w )表示新闻正文B中的片段, P(S|T,B)表示阅读网络, P(C|S,T)表示生成网络。

阅读网络

一、表示层

标题 T = (t_1,...,t_n) ,其中每个元素 t_j 被余弦相似度模型所代表;
正文内容 B = (b_1,...,b_m) ,其中每个元素 b_k 被定义为与文本序列 T 相关联的新闻内容;
采用余弦相似度模型对文本序列进行嵌入处理,并使每个元素 t_j 映射到向量空间中的 e_{T,j} ,同时使每个元素 b_k 映射到向量空间中的 e_{B,k}

为了在新闻正文中保持单词的位置,我们采用oB,k 和sB,k 来扩展eB,k 向量。具体而言,通过将eB,k 扩展为由oB,k 和sB,k 组成的向量,并结合多层感知器(MLP)进行处理。其中oB,k 表示bk在其句子中的位置,而sB,k 则表示整个正文中该句子的位置。从而将新的正文字本的嵌入表示为\widehat{e} embedding B,k = MLP([e B,k ; o B,k ; s B, k ]) ,其中MLP()代表一个具有两层的多层感知器网络结构。

如图所示,在整个流程中首先对初始的新闻标题和正文表示进行编码:\xi_T=(e_{T,1},... ,e_{T,n} )\xi_B=(\widehat{e}_{T,1},... ,\widehat{e}_{T,1})
随后通过RNN-GRU网络对新闻标题T进行编码处理,生成一个隐藏层向量H_T = (h_{T,1},...,h_{T,n});接着将新闻正文B映射为另一个隐藏层向量H_B = (h_{B,1},...,h_{B,m});其中每个h_{B,k}由多层感知机(MLP)计算得出,并基于输入特征\widehat{e}_{B,k}和注意力池化结果c_{B,k}:即h_{B,k} = \text{MLP}\left([\widehat{e}_{B,k}; c_{B,k}]\right);其中c_{B,k}代表注意力池化层中第k个位置的信息;其计算公式如下:

c_{B,k} = \sum_{j=1}^m \alpha_{k,j} \widehat{e}_{B,j}

其中\alpha_{k,j}是由下式确定的权重:

\alpha_{k,j} = \frac{\exp(s_k)}{\sum_l \exp(s_k)}

s_k则表示词与词之间的相似性度量:

s_k = s_k(j) = \frac{\widehat{e}_{k,T}^\top \widehat{e}_{k,B_j}}{\sqrt{d_1}}

二、融合层
融合层负责处理上述计算出的两个关键特征向量h_T^*h_B^*, 并通过门控机制实现它们的有效结合. 该过程最终会得到一个新的向量序列\mathcal{V}=(\mathbf{v}_1,\dots,\mathbf{v}_m), 该序列可被视为对整个新闻文章内容的一个高效摘要.
对于每个维度k, 计算出新的表征\mathbf{v}_k = \mathbf{h}_{B,k} + g_k \odot \mathbf{c}_{T,k}, 其中\mathcal{G}_k=\sigma(\mathbf{W}_g [\mathbf{h}_{B,k};\,\mathbf{c}_{T,k}]).

三、预测层

在这里插入图片描述

如图所示,在融合层生成的空间中定义了向量序列V=(v_1,\dots,v_m)。其中S=((a_1,e_1),\dots,(a_w,e_w))用于标识显著性分段区域,在此框架下a_ie_i分别代表第i个分段区间的起始位置和终止位置。取其为输入后最终输出序列L=(l_1,\dots,l_m)。若第k个词是片段的起始点,则l_k=1否则l_k=0.

给定输入序列a_k其终止位置e_k可以通过指针网络( \alpha_{\alpha_k,1} ,...,\alpha_{\alpha_k,m})生成其中每个\alpha_{\alpha_k,j}的值由Softmax函数计算得出具体而言在计算s_{\α_α_κ,j}时我们引入了门控循环单元(Gated Recurrent Unit)用于处理信息传递过程这一过程涉及以下几个关键步骤首先通过一个线性变换将当前词向量与前一层的状态向量进行结合随后应用双曲正切函数对其进行非线性激活最终输出一个中间状态向量h_{a_κ,1}这个状态向量被用来初始化注意力机制中的相关参数h_0 = att(V,r)其中h_0 = \sum β_j \cdot v_j这里的权重系数β_j由另一个Softmax层进行归一化处理具体来说每个β_j的值是由以下公式确定的β_j = e^{β'_j} / ∑ₗ=1^m e^{(β'_j)}而β'_j则基于输入向量v_jr以及一些 learnable 参数矩阵V₁和W_h₁等经过这些步骤最终能够准确地预测出目标序列的位置信息

设 start 代表显著性分段的起始位置(a_1,…,a_w) ;其中 p_i 定义为概率 P(l_i=1);进而可得阅读网络的输出结果 P(S|T,B) 即可表示为:

该条件概率值等于左边的分子与分母之比,在分子中涉及多个因子的乘积运算

生成网络
在这里插入图片描述

在阅读网络中得到了

该系统能够识别出关键片段 S=((a_1,e_1),…,(a_w,e_w))
新闻标题可被视为一种特定类型的关键片段
文章内容可被建模为一个序列向量
阅读网络的作用结果可被视为一个关键片段嵌入模型输出
这种模型输出将显示出与关键片段相关的隐式语义信息
具体来说,
这种模型输出将显示出与关键片段相关的隐式语义信息

将输入 HT 和 HS 传递给生成网络后,在每一步骤中会通过词解码过程输出评论内容。其隐状态的变化由以下方程决定:
h_t = Gated Recurrent Unit(h_{t-1}, [e_{C,t-1}; C_{T,t-1}; C_{S,t-1}]))
其中 H_T 与当前隐状态 h_t 的相互作用得到 C_{T,t-1} 以及 C_{S,t-1} 也类似地计算得到。进一步通过线性变换层和激活函数获得概率分布 \bar P_t 如下所示:
\bar P_t = Softmax(V [h_t; C_{T,t}; C_{S,t}] + b)
假设评论序列 C = (c_1,…,c_o),其中 c_k 表示评论序列中的第 k 个词项索引号,则生成网络的概率模型定义如下:
P(C|S,T) = P(c_1|S,T) \prod_{t=2}^o P(c_t|c_1,...,c_{t-1},S,T)

\qquad \qquad \qquad \qquad \qquad P(C|S,T) = \bar P_1(c_1) \prod_{t=2}^o \bar P_t(c_t)

学习方法

模型旨在基于数据集 D={(Ti,Bi,Ci)} 学习条件概率 P(S|T,B) 和 P(C|S,T),然而,在实际应用中,直接获取 S 的值往往较为困难。为此,作者引入隐变量 S 并重新定义目标函数 J 为:尝试最大化下界 ζ = ∑{i=1}^N ∑{S_i ∈ S} P(S_i|T_i,B_i) log P(C_i|S_i,T_I),其中 ζ < J。为了计算梯度信息 Θ 集合中的参数集 Θ 包含模型的所有参数,则需对偏导数 ∂ζ/∂Θ 进行估计:通过引入 Monte Carlo 采样方法生成 j 个样本点 (n=1,2,...,j),进而近似计算梯度信息:∂ζ/∂Θ ≈ (1/j)∑_{n=1}^j [∂logP(Ci | Si,n, Ti)/∂Θ + logP(Ci | Si,n, Ti)·∂logP(Si,n | Ti, Bi)/∂Θ]

实验

基线模型
  1. IR-T 和 IR-TC 模型基于 TF-IDF 矢量余弦角识别候选文章与相关评论,并通过卷积神经网络实现评论排序功能以输出优先级最高的评论。其中 IR-T 仅依赖新闻标题信息进行建模,而 IR-TC 则综合考虑了新闻标题与正文内容。
  2. 基于序列到序列的学习框架构建的 Seq2Seq 模型旨在从新闻标题生成高质量的评论内容。
  3. 注意力机制驱动的 Att 和 Att-TC 模型分别采用不同的输入特征进行建模:Att 仅基于新闻标题信息提取关键词表现特征并生成评论内容;Att-TC 则同时融合了新闻标题与正文内容的信息构建多维度特征向量用于生成更具参考价值的评论内容。
  4. 门控注意力神经网络 GANN 作为一种新型深度学习模型,在新闻信息处理方面展现出显著优势。
实验结果

以下是对两个数据集进行的自动测量和人工判断的评估研究结果。实验对比了七种不同的模型,在多数自动评价指标中,DeepCom展现出最佳表现,并且其优势在多个关键指标上达到了显著水平(加粗字体的部分)。

在这里插入图片描述

阅读总结

目前DeepCom系统整合了阅读网络和生成网络两大核心模块,旨在模仿人类在处理新闻评论时所经历的"阅读-关注-评论"这一认知过程。通过实验数据分析,在两个测试数据集上的评估结果显示,在多个关键性能指标上所提出的模型均表现出更高的性能水平,并显著优于现有的基于序列到序列架构(Seq2Seq)、注意力机制模型(Att)以及图神经网络(GANN)等传统方法。

想到的应用方面有:

  1. 聊天机器人
  2. 舆论引导
  3. 文章摘要生成

对模型进行扩展,在生成网络之后添加一层神经网络结构:用于判断。
将生成的评论重新输入到该判别网络中进行分析。
评估生成内容的质量是否达到预期标准。
如果结果不符合标准,则调整相关参数并重新执行生成过程。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~