Multi-view Integration Learning for Irregularly-sampled Clinical Time Series
Multi-view Integration Learning for Irregularly-sampled Clinical Time Series
介绍
问题
电子健康记录(EHR)数据==稀疏 且不规则 ==,因为它以不规则的时间间隔记录,并且在每个观察点测量不同的临床变量。不同数量的观察值和跨数据的时间对齐方式的缺乏使假定具有固定维特征空间的机器学习模型的使用无效。
研究进展
研究背景:基于RNN的方法已成为处理临床时间序列数据的实际解决方案,因为RNN可以管理各种长度的顺序数据。但是传统的RNN方法被设计为以连续时间序列之间的恒定时间间隔处理数据,从而导致针对不规则时间间隔的次优性能。为了应对这一挑战,广泛使用的方法是将不定期采样的时间序列数据转换为定期采样的时间序列,即时间离散,并将此固定维向量馈入RNN。但是,它需要对窗口大小和聚合函数进行临时选择,以处理属于同一窗口内的值。类似于离散化方法,插值方法要求指定离散的参考时间点。代替使用输入中所有可用的观测值来替换这些时间点的内插值,由于假定固定的时间间隔,它可能不可避免地引入额外的噪声或信息损失。处理不规则时间序列的更好方法是直接对不等间隔的原始数据进行建模。与依赖于离散时间的常规RNN相比,基于普通微分方程(ODE)的递归模型以处理非均匀时间间隔,并消除了通过归纳将观测值聚合为等距间隔的需求ODE将RNN中的隐藏状态转换为连续时间动态。另一种选择是利用缺失的来源,例如缺失指标和时间间隔,以对信息缺失模式进行建模。使用丢失的指标或时间间隔,并应用启发式衰减函数(例如单调非增大函数),而无需学习表示缺失值。最近,基于注意力的方法已用于处理不规则采样。尤其是,自我注意模型由于具有完全并行的序列处理能力,因此具有优于RNN的计算优势。一些基于自我注意机制的文章已经应用了一种简单的修改过的自注意方法,例如被掩盖的注意,或将位置编码替换为时间编码,级联编码矢量和缺失指标。
本文解决方案
本文提出了一种新方法,该方法可以通过无归责的自我注意机制,从不规则的多元时间序列数据中共同学习多视图特征的深度表示。具体来说,我们设计了一种新颖的多视图整合关注模块(MIAM),通过整合缺失指标和时间间隔来学习复杂的缺失模式,并通过一系列自我关注模块在表示空间中进一步组合观察与缺失模式。在MIAM模块的顶部,我们构建了一个基于注意力的解码器,作为缺失的数据推动者,有助于为预测任务(仅在训练阶段)进行多视图观测之间的相互关系的表示学习。结果,降低了模型的复杂性,同时消除了同时估算缺失数据的需要。我们表明,我们提出的方法在现实的EHR数据集:MICIC-III和PhysioNet 2012挑战数据集上,胜过了最新的院内死亡率预测方法。
相关工作
针对以下3个部分,文章中各提出了一些前人的解决方案,可以对比学习
Irregular Time Series Modeling 不规则时间序列建模
Missing Patterns Modeling 缺失模式建模
**Attention Mechanism in Irregular Time Series Modeling ** 不规则时间序列建模中的注意机制
方法
我们提出用于医院死亡率预测任务的不规则多元EHR时间序列的多视图特征集成学习的方法。首先,我们介绍多元时间序列数据的符号,然后描述我们提出的方法,该方法包括(i)输入和时间嵌入,(ii)多视图集成学习(iii)二元分类的死亡率预测,以及( iv)用于掩盖的丢失数据的辅助插补。
Data Representation
Multi-view Integration Learning
缺失数据的关键特征是缺失本身可能会传达信息,而忽略这种依赖性可能导致错误的预测。现有作品利用了这些缺失的来源,即缺失的指标和时间间隔,并在不了解其表示的情况下将启发式衰减函数用于其使用。但是,对缺失使用不合适的建模可能会导致对特征重要性和对测量变化不可靠的模型进行不可靠的评估
出于这一观察的动机,在这项工作中,我们通过有效利用缺失的指标和时间间隔来学习不规则时间序列数据的深入表示。我们认为这些缺失源是人类的知识,例如在不同情况下应该测量什么以及何时测量,这些在数据中间接表示。在这种情况下,我们将缺失指标和时间间隔的表示视为不规则采样观测的多视图特征。具体而言,我们提出了一种多视图特征集成学习方法,用于对多视图观察之间的相互关系建模。这是通过使用自我注意机制来实现的,在这种机制中,表示的内积常常反映出诸如相似性之类的关系。

Input and Time Embedding
采用时间嵌入作为位置编码的一种变体,将连续的时间值作为输入,并将其转换转换为编码向量表示形式这种方法通过考虑确切的时间点及其时间间隔来处理不规则采样的时间序列
TE(t,2d)=sin(t/lmax2d/dmodel )TE(t,2d+1)=cos(t/lmax2d/dmodel )
Self-attention
基本构件是基于多头自注意力机制(MHA)的,其中根据一组查询(Q),键(K)和值(V)计算按比例缩放的点积:α(Q,K,V)=σ(QK⊤dk)V\alpha(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\sigma\left(\frac{\mathbf{Q} \mathbf{K}^{\top}}{\sqrt{d_{k}}}\right) \mathbf{V}
Multi-view Integration Attention
整合模块旨在通过整合缺失指标和时间间隔来学习复杂的缺失模式,并在表示空间中进一步结合观察值和学习到的缺失模式。在缺失整合步骤中,我们通过等式中的MHA块合并缺失指标的表示与时间间隔的表示(图中左上角那一块)
HM∗=α(HΔ,HM,HM)=σ(HΔHM⊤dk)HM \mathbf{H}{\mathrm{M}{}}=\alpha\left(\mathbf{H}^{\Delta}, \mathbf{H}^{\mathbf{M}}, \mathbf{H}{\mathbf{M}}\right)=\sigma\left(\frac{\mathbf{H}{\Delta} \mathbf{H}{\mathbf{M}{\top}}}{\sqrt{d_{k}}}\right) \mathbf{H}^{\mathrm{M}}
在观察缺失综合步骤中,通过计算等式中的另一个MHA块,将观察的表示与缺失模式的表示结合在一起。 (图中蓝色框)
HX∗=α(HM∗,HX,HX)=σ(HM∗HX⊤dk)Hx \mathbf{H}{\mathbf{X}{}}=\alpha\left(\mathbf{H}{\mathbf{M}{}}, \mathbf{H}^{\mathbf{X}}, \mathbf{H}{\mathbf{X}}\right)=\sigma\left(\frac{\mathbf{H}{\mathbf{M}^{}} \mathbf{H}{\mathbf{X}{\top}}}{\sqrt{d_{k}}}\right) \mathbf{H}^{\mathbf{x}}
In-hospital Mortality Prediction
HX∗\mathbf{H}{\mathbf{X}{*}}在时间戳上平均池化得到h~\tilde{\mathbf{h}},然后通过两层的MLP
p(y=1∣h)=φ2(φ1(hW1+b1)W2+b2) p(y=1 \mid \tilde{\mathbf{h}})=\varphi_{2}\left(\varphi_{1}\left(\tilde{\mathbf{h}} \mathbf{W}{1}+\mathbf{b}{1}\right) \mathbf{W}{2}+\mathbf{b}{2}\right)
为了防止数据不平衡带来的模型偏倚,采用焦点损失函数
Lcls=∑n=1N−β(1−y(n))γlog(y(n)) \mathcal{L}{c l s}=\sum{n=1}{N}-\beta\left(1-\hat{y}{(n)}\right)^{\gamma} \log \left(\hat{y}^{(n)}\right)
其中N是患者总数,γ是少数类的关注参数,β是权衡因素,以平衡各类别之间的重要性。
Auxiliary Missing Data Imputation
在MIAM模块的顶部,我们还构建了一个基于注意力的解码器,作为缺失的数据插补,旨在增强用于预测任务的多视图观测之间的相互关系的表示能力。为了研究掩盖的归因损失,我们随机掩盖了10%的非缺失值并对其进行了预测。从自我监督学习的角度来看,它可以被视为类似于BERT所使用的掩蔽语言建模任务,该任务随机掩蔽文本序列中的某些标记,然后独立地恢复被掩蔽的标记以学习语言表示。我们了解了缺失值与上下文之间的相互关系,这进一步有助于了解多视图观察之间的相互关系。由于插补仅在训练阶段而不是测试阶段进行,因此所提出的方法基本上是无插补的方法。因此,它具有减少模型复杂性的优点,而不会面临前面提到的与归因相关的现有问题。损失函数为MSE:
Limp =∑n=1N(X(n)⊙Mimp (n)−X^(n)⊙Mimp (n))2N \mathcal{L}{\text {imp }}=\sum{n=1}^{N} \frac{\left(\mathbf{X}^{(n)} \odot \mathbf{M}{\text {imp }}{(n)}-\hat{\mathbf{X}}{(n)} \odot \mathbf{M}{\text {imp }}{(n)}\right){2}}{N}
Loss Function
L=λimpLimp+λclsLcls \mathcal{L}=\lambda_{\mathrm{imp}} \mathcal{L}{\mathrm{imp}}+\lambda{\mathrm{cls}} \mathcal{L}_{\mathrm{cls}}
实验结果

