旷视科技(Face++)和孙剑博士近期一些研究工作总结
孙剑博士曾担任微软亚洲研究院首席研究员一职,并现就任于旷视科技担任首席科学家。他在计算机视觉领域取得了一系列具有里程碑意义的研究成果:包括但不限于物体检测算法(Faster-RCNN 系列)、深度残差网络 (Residual Network) 以及经典去雾算法(Single Image Haze Removal using Dark Channel Prior)等技术亮点。自2016年6月底起,在加入旷视科技之前的工作经历中……以下是我们对Barabas人工智能实验室近期研究成果的简要梳理……
该研究探讨如何从单一图像重建图像中物体的三维形状。该论文提出了一种基于三维点云表示物体三维形状的方法,并指出相比于传统的基于三维网格的方法而言,在灵活性上具有显著优势的是点云表示法。文中借鉴了条件生成对抗网络(C-GAN)的思想,并将其应用于对点云生成过程的研究。通过深度神经网络建模概率密度函数并进行优化求解,在实验结果表明其效果优于现有方法
2. https://arxiv.org/abs/1612.08843, "FastMask: Segment Multi-scale Object Candidates in One Shot"
该论文探讨了物体分割(Segmentation)这一核心挑战,并提出了一种One-Shot的方法来解决图像中物体多尺度问题的复杂性。传统的解决这类问题的方法主要局限性在于计算复杂度较高(即所谓的Multi-Shot)。为了优化这一过程, 本文提出了一种新的基于One-Shot的物体分割算法框架, 其由三个关键模块组成: Body、Neck和Head模块。Body模块负责从输入图像中提取特征图(feature map), Neck模块则通过逐步细化特征图来递归解决多尺度问题, 最后Head模块利用滑动窗口技术重构出精确的分割结果。与现有技术相比, 该方法在MS-COCO基准测试中展现出显著优势, 实验数据显示其分割速度比传统方法提升了一个到两个数量级(A speed improvement of 2-5 times compared to traditional methods.)同时在保持较高精度的前提下实现了超高的运行速度(达到13fps on images of 800x600 resolution.)
该文章聚焦于现实场景中的文字识别问题。文中提出了一种基于端到端的场景文字识别算法框架。其核心思路是通过深度神经网络从图像中直接推断出文本框的几何位置及其方向(四边形位置和倾斜角度)。其中多尺度特征提取的方法借鉴了U-Net架构或FPN结构的设计理念。该方法已在ICDAR 2015、COCO-Text以及MSRA-TD500等基准数据集上展现出卓越的性能水平,在准确率和计算效率方面均取得显著优势。
第4篇论文链接:https://arxiv.org/abs/1703.02719, 标题:"Large Kernel Matters-Improve Semantic Segmentation by Global Convolutional Network"
该研究专注于图像分割问题展开探讨。文章提出了一种GCN(全卷积网络)用于物体分类与位置预测任务。研究借鉴了U-Net架构,在特征图上处理多尺度问题,并将传统的k×k卷积核分解为k×1与1×k两个方向的卷积操作以实现扩大感受野而不提升模型复杂度的目的。实验结果表明该方法在PASCAL VOC 2012和Cityscapes数据集上的实验结果表明该方法能够较之前算法获得更好的性能表现。
5. https://arxiv.org/abs/1702.00953, "Deep Learning with Low Precision by Half-wave Gaussian Quantization"
本研究聚焦于神经网络加速问题。文中探讨了网络激活(特征层)的量化问题。主要思路是基于网络中每一层的激活值分布(如Gaussian分布)来实现量化处理。特别地,文中探讨了如何逼近ReLU激活函数,并提出了其实现方案(包括前向传播和反向传播两种形式)。针对这些模型架构(AlexNet, ResNet, GoogLeNet 和 VGG-Net),本研究实现了1-bit权重、2-bit激活网络的有效性能提升。
