Advertisement

腾讯优图入选人工智能顶级会议AAAI论文--10篇

阅读量:

在人工智能领域内最具影响力的国际会议AAAI 2020拟定于二月份七日至十二日在美东纽约举行。近年来随着人工智能技术的蓬勃发展,在该领域内定期举行的高水平学术会议逐渐成为全球关注焦点,并且每年都会吸引来自学界与产业界的众多研究员和技术开发者参与投稿与参会。

例如,在AAAI 2019年期间

以人工智能领域为重要研究方向且内容极为丰富的学界盛会著称的国际顶级学术会议----- neurips, 以其卓越的研究成果与创新性发展受到全球学术界的高度认可. 该大会致力于推动人工智能与机器学习领域的基础理论及其前沿技术研究, 涵盖的研究方向不仅限于人工智能与机器学习的基础理论, 还涵盖了多个交叉融合的研究方向. 在研究重点方面, convention 的重点议题涵盖自然语言处理与深度学习等前沿领域, 同时大会还特别关注在跨学科交叉研究方面的最新进展.

此次腾讯优图实验室共计入选10篇论文,涉及速算批改、视频识别等。

以下为具体解读

基于时间和语义维度深入探讨时间域融合的技术机制,在视频数据中的行人身份重新确认任务中展开研究(Oral)

Rethinking the Temporal Information Fusion Techniques in Video-based Person Re-identification Systems on Semantic and Temporal Aspects, presented orally.

关键词:行人重识别、时间和语义、时间融合

下载链接:https://arxiv.org/abs/1911.12512

近年来行人重识别(ReID)领域的研究持续深入发展,在这一过程中越来越多的研究者开始关注基于整段视频信息的整体聚合方式来提取人体特征的方法。然而现有的一些人员重识别方法却忽视了卷积神经网络在不同深度层中提取信息所体现出的语义层面差异性这可能导致提取出的视频特征在表征能力上存在不足。此外传统方法在提取视频特征时往往未充分考虑帧间关系的影响进而导致时序融合形成视频特征的过程中出现冗余现象并由此带来的关键信息稀释效应

为了应对这些问题, 本研究开发出一种新型且普遍适用的时间序列融合架构, 并从语义维度和时间维度上整合了帧数据, 从而使得提取出的特征能够更加全面地反映视频内容. 在具体的实现过程中, 研究者不仅优化了现有的帧内注意力机制, 还增加了帧间注意力组件, 通过整合帧间关系来减少时间序列融合过程中的冗余信息.

通过实证分析可知,本文提出的解决方案具有显著提升视频捕捉到的人行者识别准确率的效果,其性能指标处于当前最高水平

2.速算批改中的带结构文本识别

Precise Structured Text Recognition for Arithmetic Exercise Correction

关键字:速算批改,算式检测与识别

对于中小学教师而言,数学作业批改是一项高度劳动密集型的任务。为了减轻教师的工作负担,在本文中我们提出了一种名为"算术作业检查器"的自动化评估系统。该系统能够自动判断图像中所有算术表达式的正确性。然而其面临的主要挑战在于:许多算术表达式是由具有特殊格式(如多行式、分数式)的印刷文本与手写文本混合而成的复杂结构所构成。传统的速算批改方案在实际应用中暴露出了诸多局限性。本文着重从算式检测与识别两个维度出发,在实际问题的基础上提出了相应的解决方案:针对算式检测过程中可能出现的非法候选表达式问题,在基于CenterNet框架的基础上进一步设计了一种新型的目标损失函数——横向边缘聚焦损失函数(Horizontal Edge Focusing Loss)。该方法通过精确定位出更清晰、更具辨识度的目标边界区域来避免出现"空心"对象现象,并显著提升了在算式检测任务中的召回率与准确率表现。在此基础上,在识别框的设计阶段为了避免因上下文信息干扰导致的误判问题,在算法层面引入了基于上下文门函数(Context Gate)的方法论:通过动态平衡图像表征与上下文信息输入权重的方式引导模型更加关注图像特征提取环节的信息获取效果,并在此过程中有效规避了因无意义上下文信息干扰而导致的识别偏差问题:最终该方法在保证识别准确性的前提下实现了对目标特征的有效提取与精确判定

需要注意的是,在这一研究过程中我们特别关注并严格遵循以下原则:首先所有数学符号与公式均按照原文形式保持不变;其次所有的英文术语也均保持原有的专业属性不受影响;第三所有的数字字符以及字母符号等基本元素均按照原文规范执行

3. 基于稠密边界生成器的时序动作提名的快速学习

Efficient Temporal Action Proposal Learning involving Dense Boundary Generator

关键词:DBG动作检测法、算法框架、开源

下载链接:https://arxiv.org/abs/1911.04127

基于多样化的精彩视频集锦、先进的字幕生成技术和多维度的动作识别分析方法,在当今快速发展的互联网时代,在产业界得到了日益广泛的运用,并非没有挑战——特别是在复杂多样的场景中出现的动作类型差异也比较大。

针对这些挑战,本文针对DBG动作检测算法,提出3点创新:

开发一种高效且端到端设计的密集边界动作生成器(命名为DBG)。该系统能够有效计算得到所有动作提名对应的密集边界置信度图。

增添时序维度上的行动分类损失函数用于监督行动概率特征(action score feature, asf),这一特性有助于提升行动完整性回归(Action-aware Completeness Regression, ACR)。

(3)开发一种高效率的动作命名特征提取层(Proposal Feature Generation Layer, PFG),该层能够有效地提取动作的全局特性,并为后续的分类与回归模块提供便利。

其算法框架主要由视频表示(Video Representation)、稠密边界动作检测器(DBG)以及后续处理步骤(Post-processing)三个模块构成。目前腾讯优图团队的DBG相关代码已公开发布,并在全球知名数据集ActivityNet上取得优异成绩并位居榜首。

4. TEINet:迈向视频识别的高效架构

TEINet: Towards an Efficient Architecture for Video Recognition

关键词:TEI模块、时序建模、时序结构

下载链接:https://arxiv.org/abs/1911.09435

本文引入了名为TEI的新模块设计。这种设计能够无缝整合到现有的二维卷积神经网络架构中。相较于传统的时间序列建模方法,TEI模块通过通道维度上的注意力机制以及时间序列交互机制来有效捕捉时空模式。

其中的MEM组件能够强化运动相关的特征并从而排除非相关特征(例如背景),此外,在通道维度上补充了前后时空信息的 TIM组件则为模型提供了更为完整的时空感知能力。这两个组件不仅能够灵活且有效地捕获时空关系,在推理过程中也能保持较高的计算效率。本研究通过一系列实验验证了该模型在多个基准测试集上的有效性

5. 通过自监督特征学习重新审视图像美学质量评估

Re-examining Visual content's Aesthetic evaluation through Self-supervised feature learning.

关键词:美学评估、自我监督、计算机视觉

下载链接:https://arxiv.org/abs/1911.11419

图像美学质量评估属于计算机视觉领域中的一个重要研究课题。近年来许多研究者提出了许多有效的评估方法,在美学评估方面取得了显著进展。然而许多现有方法都基于大量视觉美学相关的图像标签或属性 但这些信息通常需要巨大的人力成本

为了解决人工标注成本高昂的问题,“通过自监督学习机制探索具有美学表现力的视觉特征表示”这一方向的研究意义重大。本文在此方向上设计了一种简洁而高效的自监督学习方案。我们的方法的核心动因在于:若一个表征空间无法区分不同图像编辑操作所导致的艺术质量问题变化,则该表征空间不适于用于艺术质量问题评估任务。基于这一动因,在此基础上我们提出了两个相互关联的艺术化目标:第一种目标要求模型识别施加于输入图像的各种艺术处理类型;第二种目标则旨在使模型能够分辨同一类艺术处理在不同控制参数设置下所引发的艺术质量问题变化差异

为便于对比实验结果而存在

6.基于生成模型的视频域适应技术

Generative Adversarial Networks forVideo-to-Video Domain Adaptation

关键字:视频生成,无监督学习,域适应

由不同中心提供的内窥镜视频常呈现多样化的成像参数,并非单一一致的特点

为了解决上述问题

7. 非对称协同教学用于无监督的跨领域行人再识别

Asymmetric Co-taught Approach for Unsupervised Cross-Domain Person Retrieval Problem

关键词:行人重识别、非对称协同教学、域适应

下载链接:https://arxiv.org/abs/1912.01349

行人重识别问题因样本间的高度异质性和成图质量不稳定而长期被视为一个极具挑战性的研究课题。尽管在固定场景下实现了较高的重识别性能(源域),但针对新场景的研究仍显不足。目前一种有效的解决方案是利用聚类技术对无标记数据进行伪标签标注,在此过程中辅助模型适应新场景的同时保留原有的分类能力。然而,在实际应用中存在两个主要问题:其一是引入了大量噪声标签;其二是导致部分低置信度样本被舍弃。

本文主要提出了非对称协同教学方法,并采用两个神经网络模型分别处理高度纯净的样本数据与具有多样性的样本数据,在"类协同教学"理论指导下实现了去除噪声样本干扰的同时有效整合了低置信度的样本资源。研究发现,在这一框架下构建的学习体系不仅能够显著提高领域适应的精度而且能够在多模态数据分析中展现出良好的迁移效果。通过一系列公开实验结果表明该方法能够显著提升当前阶段的领域适应性能,并且适用于多种聚类算法场景中的迁移学习任务

8. 带角度正则的朝向敏感损失用于行人再识别

基于视角的损失函数结合角度正则化策略用于人员重新识别

关键词:行人重识别、朝向、建模

下载链接:https://arxiv.org/abs/1912.01300

近年来有监督行人的重识别(ReID)取得了显著进展。然而行人的图像由于明显的方向性差异使得这一问题依然具有显著挑战性。大部分基于方向性的特征学习方法将来自不同方向的图像分别映射到独立的方向特征空间中这种做法仅关注单个方向的人体身份级别的特征分布模式而忽视了不同方向之间潜在的关联关系

为解决这一挑战, 本文提出了一种创新的方法, 被命名为带角度正则的朝向敏感损失 (VA-ReID)。与其传统的每个方向独立学习的方法不同, 该方法显著特点是能够在同一个超球面上统一表示来自不同方向的数据特征, 这一特性使得我们得以同时建模身份维度与方向维度的空间分布特性。在此框架下, 与传统的硬编码标签的方式不同, 本文进一步发展出了一个新的解决方案——即基于 VALSR 的自适应标签平滑正则方法 (VALSR)。该方法赋予了特征表层一种可调节的方向性标记机制, 并非简单地进行硬性分类, 而是通过软性的概率化标签来描述物体的方向信息, 进而有效缓解了仅凭单一方向信息难以精确刻画物体方向的问题

多个基于两个公开数据集Market1501和DukeMTMC的实验表明,该方法的性能优越性得到了充分验证,并且其明显优于现有的有监督ReID方法中的最优者。

9. 如何利用弱监督信息训练条件对抗生成模型

Robust Conditional GAN fromUncertainty-Aware Pairwise Comparisons

关键词:CGAN、弱监督、成对比较

下载链接:https://arxiv.org/abs/1911.09298

条件对抗生成网络(conditinal GAN, CGAN)自提出以来已在机器学习领域取得了显著成就,并在图像属性编辑等实际应用领域展现出良好的性能表现。然而,在这种情况下通常会面临大量的标注需求。为了缓解这一问题现有方法多采用无监督聚类策略具体而言多采用无监督学习框架下生成伪标注数据这些伪数据随后被用作真实数据来训练CGAN模型。然而当目标属性呈现连续数值而非离散形式或者无法有效反映数据间的主要差异性特征时上述方法往往难以达到预期效果为此本文进一步探索弱监督学习策略以提升CGAN模型的表现具体而言我们在本研究中采用成对比较的方式作为弱监督信号相比于绝对标注方式成对比较具有以下优势:首先操作简便易于上手其次能够显著提高预测精度最后能有效降低主观判断带来的偏差

我们建议先训练一个比较网络以预测每张图片的评分,并将这些评分作为条件输入至CGAN进行训练。该比较网络的设计灵感源自国际象棋比赛中的等级分计算系统(Elo rating system),我们将其借鉴到这里:将单个图像间的配对比较视为一场比赛,并通过设计一个神经网络来评估图片的评分能力。为了进一步完善该模型:我们还设计了一个贝叶斯版本:赋予该模型评估评分不确定性的能力。在图像生成模块中:我们将鲁棒条件生成对抗网络(RObust Conditional GAN, RCGAN)进行了扩展:使其适用于连续值的情况:具体而言:与生成的假图相关的预测评分会在进入判别器之前经过重采样处理

针对四个不同的人脸数据集展开实验研究,在每组数据中分别调整人脸图像中的年龄参数以及外貌特征的比例。实验证明该方法与全监督方法相比具有相当的效果,并且显著优于无监督学习方法。

10. 基于对抗扰动的无监督领域自适应语义分割

Of Adversarial Perturbations Oriented Domain Adaptation Approach in semantic segmentation tasks.

关键词:无监督领域自适应、语义分割、对抗训练

下载链接:https://arxiv.org/pdf/1912.08954.pdf

当前神经网络凭借充足的标注数据已展现出显著的效果;然而,在新环境中泛化能力却较为有限;同时注释大量数据所需资源投入巨大;为此,在无监督学习领域中自适应性迁移研究致力于利用现有带标签的数据训练模型,并将其成功应用于未标记的数据集。

该对抗对齐(adversarial alignment)方法在无监督学习领域的自适应问题中得到了广泛的应用。该方法通过整体上匹配了两个领域的特征表达边缘分布情况,在一定程度上缓解了这些问题之间的差异性挑战。然而,在语义分割任务中面临数据长尾分布现象且缺乏基于类别的领域适配监督的问题时,在实际应用中发现这一策略往往会被大规模物体类别(如大型物体如公路、建筑等)所主导而导致其难以有效识别小类目或边缘对象(如红灯设施、小型交通工具等)。

本文提出了一种基于生成对抗扰动与防御机制的框架结构。其次, 该框架通过设计多个抗干扰学习组件(包括分类器与判别器)来实现其核心功能, 这些组件能够通过在两个领域特征空间中分别对齐生成抗干扰样本, 从而构建起两域间的特征关联空间, 同时隐含着网络在面对外界干扰时存在的潜在脆弱性。最后, 在这一过程中, 模型被训练以增强其抗干扰能力, 最终可获得一个更具鲁棒性的系统架构, 其性能指标适用于领域变化、物体尺寸以及长尾分布等多种复杂场景

本文提出的对抗扰动框架,在两个合成数据迁移到真实数据的任务上进行了评估与验证。该方法不仅展现出良好的性能,在图像整体分割任务中表现突出,并进一步提升了模型对小物体和不同类别的识别精度。实验结果充分证明了该框架的有效性与可靠性

全部评论 (0)

还没有任何评论哟~