[论文笔记] DCA（Dual Chunk Attention）

阅读量：

DCA（Dual Chunk Attention）是一种用于处理长文本的自然语言处理模型中的技术。传统的注意力机制（Attention）可能因计算每个单词与其他所有单词之间的关系而面临效率和性能上的挑战。由于随着文本长度的增长，计算每个单词与其他所有单词之间的关系会变得极其耗时且占用大量内存。

DCA 的核心思想

DCA的核心理念在于将长文本划分为多个较小的"块"（chunks），随后分别在这些块内部以及块之间的区域上施加注意力机制。具体而言，这一过程主要包括以下几个步骤：首先，在每个块内部对输入进行编码；其次，在相邻的两个块之间建立双向的注意力连接；最后，通过逐层聚合各层的特征信息以生成最终输出。

分块处理：将长文本划分为多个小部分进行处理。例如, 一个2 千词的文章可以分成四个5 hundred词的部分

Intra-Block Attention Mechanism is employed to independently apply attention mechanisms to each individual block. This implies that the attention computation is confined within the same block, ensuring that each word interacts exclusively with other words within its own block. As a result, the computational complexity is notably reduced.

Block-level Attention: After computing the self-attention within each block, we then employ an attention mechanism to interact between these blocks. This ensures that each block can access global contextual information by engaging in comprehensive interactions across all blocks.

借助这种方案,DCA具备高效处理长文本的能力,在保证较高计算效率的同时,其内存消耗水平相对较低

通俗举例

我们可以将一篇长篇文章类比于一个长长的队伍。传统的注意力机制要求每个单词与队列中的所有其他单词进行交互（即计算注意力）。当队列极为漫长时，这一过程会变得极其费时费力。

DCA方法的核心思想在于将团队划分为若干个小组进行组织化管理。具体实施时，在第一阶段中每位参与者仅与本小组内的其他成员进行交流（即实现块内注意力）。随后，在第二阶段中各组将分别派出代表参与跨组交流（实现块间注意力）。这种分阶段、分层次的管理策略不仅能够确保每位参与者都能获取到整个团队的所有信息（即达成全局认知），而且能够有效提升整体沟通效率并降低工作强度（从而使得整个过程更加高效而不至于过于繁重）。

总结

该方法通过分块处理和分步注意力计算有效地解决了长文本处理中的计算与内存瓶颈问题从而使得模型在处理长文本时既高效又具有较好的效果

全部评论 (0)

还没有任何评论哟~

[论文笔记] DCA（Dual Chunk Attention）

DCA（DualChunkAttention）是一种在自然语言处理模型中用来处理长文本的技术。传统的注意力机制（Attention）在处理长文本时可能会遇到效率和性能瓶颈，因为计算每个单词与其他所有单...

《One-shot Adversarial Attacks on Visual Tracking with Dual Attention》论文笔记

这是cvpr20的一篇与对抗攻击相关的文章。涉及的问题深度学习虽然在cv领域硕果累累，但是它的脆弱性（vulnerable）是众所周知的。通过人眼无法察觉的微小改动，就可以使得神经网络模型产生截然...

论文笔记（三）：DAML: Dual Attention Mutual Learning between Ratings and Reviews for Item Recommendation

阅读笔记：DAML:DualAttentionMutualLearningbetweenRatingsandReviewsforItem阅论文标题：DAML:DualAttentionMutualLe...

【多模态】《Dual Attention Networks for Multimodal Reasoning and Matching》论文阅读笔记

一、概述这篇文章做了两个任务：一个适用于需要多模态推理的任务，例如VQA；另一个适用于需要多模态匹配的任务，例如ImageTextMatching。这篇文章在【多模态】《HierarchicalQ...

DMSANet: Dual Multi Scale Attention Network（2021CVPR）双尺度注意网络论文笔记

DMSANet:DualMultiScaleAttentionNetwork 双多尺度注意网络 20216月份CVPR的一篇论文 PDF：https://arxiv.org/pdf/2106.0838...

BiLSTM-Attention论文笔记

BiLSTMAttention 《AttentionBasedBidirectionalLongShortTermMemoryNetworksforRelationClassification》论文笔...

Dual Attention Network for Scene Segmentation(论文翻译)

paper：<https://arxiv.org/abs/1809.02983 code：<https://github.com/junfu1115/DANet 摘要在本文中，我们通过基于自注意力机...

AI医药论文笔记-MFDA: Multiview fusion based on dual-level attention for drug interaction prediction

MFDA：基于双层注意力的多视图融合药物相互作用预测 MFDA:Multiviewfusionbasedonduallevelattentionfordruginteractionprediction...

DPN（Dual Path Networks）论文阅读笔记

文章目录 DPN（DualPathNetworks）论文阅读笔记2017 Abstract 1\.Introduction 2\.Relatedwork 3\.RevisitingResNet,Den...

论文笔记-Dual Refinement Underwater Object Detection Network

Hello，今天是论文阅读计划的第17天～今天来学习的一篇论文也是关于目标检测的～不过变成水下的了 Code:<https://github.com/Peterchen111/FERNet 一、背景...

是否确定退出登录?

[论文笔记] DCA（Dual Chunk Attention）

DCA 的核心思想

通俗举例

总结

全部评论 (0)

相关文章推荐

[论文笔记] DCA（Dual Chunk Attention）

《One-shot Adversarial Attacks on Visual Tracking with Dual Attention》论文笔记

论文笔记（三）：DAML: Dual Attention Mutual Learning between Ratings and Reviews for Item Recommendation

【多模态】《Dual Attention Networks for Multimodal Reasoning and Matching》论文阅读笔记

DMSANet: Dual Multi Scale Attention Network（2021CVPR）双尺度注意网络论文笔记

BiLSTM-Attention论文笔记

Dual Attention Network for Scene Segmentation(论文翻译)

AI医药论文笔记-MFDA: Multiview fusion based on dual-level attention for drug interaction prediction

DPN（Dual Path Networks）论文阅读笔记

论文笔记-Dual Refinement Underwater Object Detection Network