最新计算机视觉学习路线教程
这篇文章主要源自我的个人经验积累,并且旨在介绍适用于计算机视觉学习的各种资源。若遵循这一路径进行学习,则可预期通过这一路线的学习将能显著提升你的计算机视觉知识水平。
在学习计算机视觉之前,请先回顾有关机器学习理论的基础知识。
框架(Frameworks)

尽管你无需在刚开始时不建议考虑选择哪种框架(虽然),但为了获得更好的结果和理解相关技术原理,在实际应用中掌握新知识是非常必要的
目前主流的深度学习框架相对较少
Albumentation (图像增强库)和 catalyst (框架, pytorch顶部的高级API)在我们学习计算机视觉的过程中也是常用的工具。我们可以提前掌握并实践它们中的核心内容,尤其是第一个。
硬件
- Nvidia显卡10系列型号售价通常超过300美元。($ 300 +)
- Kaggle官方提供的免费版本每天运行时间仅为30小时。(https://www.kaggle.com/kernels)
- Google Colab提供的免费版每天运行时间仅为12小时,并且每周的总使用时长也不固定。(https://colab.research.google.com/notebooks/intro.ipynb#recent=true)
理论与实践
在线课程
-
CS231n是一门优质的在线课程,在计算机视觉领域提供了基础知识。
-
作为YouTube上的教学资源,
-
这门课程特别提供配套的习题集。
-
建议新手在学习初期阶段暂且略过习题部分进行初步了解。(免费)
-
Fast.ai 是一门值得深入学习的重要课程。
-
Fast Artificial Intelligence Initialize(Fast AI)是由深度学习先驱者提出的人工智能框架系列平台之一。
-
由于频繁更新其API以及缺乏完善的技术文档支持,在实际应用中可能会遇到诸多不便。
-
尽管如此,在这门课程中掌握其理论基础以及实用技巧确实是一个值得投资的时间。
在学习这些课程时,我建议你将理论付诸实践,将其应用于其中一个框架。
文章和代码
-
ArXiv Repository ——提供最新的研究综述。(免费)(https://arxiv.org/
- (https://paperswithcode.com/SOTA)
- 最常见的深度学习任务的当前主要动向与动态发展情况与计算机视觉领域无关。(免费)
- (https://paperswithcode.com/SOTA)
-
GitHub——提供实践代码的地方,在这个标签下你可以找到。它无偿分享高质量的计算机视觉项目,并附带文档和教程。([https://github.com/topics/computer-vision?l=python)](https://github.com/topics/computer-vision?l=python))
书籍
尽管可读的书籍数量有限,但我坚信这两本书非常实用。不论你是选择pytorch还是keras
Keras开发者与Google AI研究员François Chollet所著的Python深度学习框架。https://www.amazon.com/Deep-Learning-Python-Francois-Chollet/dp/1617294438
- 该团队由Eli Stevens和Luca Antiga共同创建了PyTorch深度学习(无费用)。
- 访问PyTorch深度学习教程
- PyTorch官方文档
Kaggle
- https://www.kaggle.com/competitions Kaggle是一个广受欢迎的在线平台,在这个平台上你可以找到多种机器学习竞赛。其中一些专注于计算机视觉领域。即使未完成相关课程,你甚至可以从比赛中入手。由于在比赛中提供了许多开放的核心(如端到端代码),通过浏览器即可运行这些代码段。(免费)
有挑战的学习方式(推荐)

另一种替代方案可能较为复杂, 但这种方法能帮助你深入探索计算机视觉的多个细分领域, 研究人员可以根据自身研究兴趣选择具体的研究方向进行深入学习。(小博主提醒 :大量优质资源即将上线, 各个领域经典项目全面呈现中...)
尝试阅读和复现如下文章,你将受益匪浅。助前行,希望对大家有所帮助。
网络架构
- AlexNet, 该论文
- ZFNet, 该研究
- VGG16, 该分析
- ResNet, 该改进
- GoogLeNet, 该设计
- Inception, 该模型
- Xception, 该创新
- MobileNet, 该技术
语义分割
生成对抗网络
- 生成对抗网络(Generative Adversarial Networks):https://arxiv.org/abs/1406.2661
- 深度生成对抗网络(Deep Convolutional Generative Adversarial Networks):https://arxiv.org/abs/1511.06434
- 无梯度惩罚生成对抗网络(Wasserstein Generative Adversarial Networks):https://arxiv.org/abs/1701.07875
- 像素到像素生成网络(Pixel2Pixel Network):https://arxiv.org/abs/1611.07004
- 循环生成对抗网络(CycleGAN):https://arxiv.org/abs/1703.10593
目标检测
- Original RCNN架构:https://arxiv.org/abs/1311.2524
- Efficient Fast-RCNN设计:https://arxiv.org/abs/1504.08083
- Optimized Faster-RCNN算法:https://arxiv.org/abs/1506.01497
- Single Shot MultiBox Detector改进:https://arxiv.org/abs/1512.02325
- YOLO算法优化方案:https://arxiv.org/abs/1506.02640
- Yolo9k增强技术:https://arxiv.org/abs/1612.08242
实例分割技术研究与应用
- Mask-RCNN: https://arxiv.org/abs/1703.06870
- YOLACT: https://arxiv.org/abs/1904.02689
姿态估计
- PoseNet: https://arxiv.org/abs/1505.07427
- DensePose: https://arxiv.org/abs/1802.00434
https://towardsdatascience.com/guide-to-learn-computer-vision-in-2020-36f19d92c934
欢迎关注磐创AI博客站: http://panchuang.net/
sklearn机器学习中文官方文档: http://sklearn123.com/
欢迎关注磐创博客资源汇总站: http://docs.panchuang.net/
