计算机视觉在做哪些基本任务?
发布时间
阅读量:
阅读量
如何才可以让计算机理解一张图片?
这张图片的内容是无法被计算机直接理解的。但是根据不同的需求,我们可以制定不同的任务,让计算机完成任务,这些主要任务大致可以分为四个主要类别:

一是分类 (Classification),即对图像进行分析以获取内容描述,并通过预先定义的类别标签或实例ID进行描述;二是定位 (Localization),即确定目标在图像中的具体位置;通常采用包围盒形式表示;三是检测 (Detection),对整体图像进行分析以获取内容描述;而检测则专注于特定的目标物体识别;其要求同时获得目标的类别信息及其位置信息;值得注意的是,在目标定位中通常只有一个或固定数量的目标;而目标检测则更具一般性;其能够处理不同数量和类型的物体;四是分割 (Segmentation),包含语义分割与实例分割两种技术;其中语义分割不区分相同类别中的不同实例;例如当下图中出现五个人时;语义分割会将所有相关像素预测为‘人’这一类别;与此不同的是实例分割需识别哪些像素属于第一个体、第二个体等具体个体。

算法实现的基本思路
基本框架是在图像特征提取的基础上,进行分类和回归。
| 任务 | 框架模式 |
|---|---|
| 分类 | 特征提取+分类 |
| 定位 | 特征提取+回归 |
| 检测 | 特征提取+分类和回归 |
| 分割 | 特征提取+分类和回归 |
特征提取的方法有两种:1、人工设计特征提取器的方法;2、卷积神经网络
全部评论 (0)
还没有任何评论哟~
