Advertisement

机器学习实例:图像文本识别【Coursera 斯坦福 机器学习】

阅读量:

本文基于Coursera 斯坦福吴恩达机器学习课程

谢绝任何不标记出处的转载

如有问题请联系作者

1. Machine Learning Pipeline

在解决一个具体且明确的机器学习问题时, 我们通常会采用将任务划分为若干阶段的方法, 以实现目标并提高准确性. Photo OCR (

Photo Optical Character Recognition

图像文字识别也是一种常见的技术手段。其工作流程如图所示:首先获取待处理的图像,并从图像中提取出相应的文字内容;并对这些文字内容进行分段和识别处理;在这一系列操作完成后,则可能存在后续更为精细的操作流程(例如通过调用有道词典的具体功能实现屏幕取词操作)。

下面是一个人脸识别的例子(在现实操作中,过程远比这个复杂)。

有点好奇在实际操作中,工程师们是如何分工的。

2. 滑动窗口Sliding Windows
2.1 Text Detection

滑动窗口通过扫描图片实现文本捕获。例如图中的情形说明。为了捕获图片中的所有行人,在准备两组图像素材时,请注意区分以下两种情况:其中一组图像标注为有行人在其中(标记为 y=1),另一组则无行人在其中(标记为 y=0)。采用尺寸固定的矩形框作为探测工具,并以固定步长从左到右或从上到下移动此框来进行探查。

在探查过程中,在机器学习算法的作用下(如图所示),我们首先将估计值为1的所有可疑位置涂白(其余估计值为0的位置则涂黑),从而形成图二中左端所示的图像效果。随后我们对这些标有白色区域的部分进行"expansion"处理(即合理扩大其覆盖范围),这一过程还包括可能存在的文字信息未被覆盖的情况。观察后发现店铺名称这一行已被显著扩大化显示出来。对于圈出的部分,则需要根据实际情况进行处理(如图二右端所示),因为在某些情况下长高比不合理的定位可能导致误判——也就是说该处很可能并不存在文字信息——因此我们选择将其去除以优化结果质量。不过这种方法并非完美无缺——例如第一行实景图中未被识别的部分可能存在定位困难的问题(因为这些文字信息附着于玻璃表面难以捕捉)。

2.2 Character Segmentation

在处理字符切分问题时,我们仍然可以采用滑动窗口的方法。核心挑战在于确保滑动窗口能够准确地定位到每个字符的位置上。如图所示,在滑动过程中可能会出现停在两个相邻字符之间的位置上。此时我们需要引入一个辅助算法(分类器),其功能是判断停在两个相邻字符之间的位置时,则将变量y设为1;否则设为0。随后我们将根据y=0的结果来进行后续操作。

3. 人造数据

可通过网络平台获取开源资源进行学习与实践操作。具体而言,在线资源不仅限于下载现有模型或预训练权重参数;也可自行开发相关的工具链路,并结合实际需求进行设计与优化工作(如图所示)。通过图像失真技术将单个A样本转换为四个不同版本(例如旋转90度、180度等),从而丰富数据多样性以提升模型鲁棒性是一个有效的方法论选择)。需要注意的是,在这种情况下很容易理解:模型性能的关键在于如何处理噪声(即希望降低偏差项),而不是单纯地增加样本数量带来的好处。具体而言,在增加多个相同样本的情况下(比如重复加入同一个A图像),虽然看似增加了噪声信息量;但因为这些额外的数据本质上并未引入新的信息维度(即仍然属于同一类别);所以并不会显著改善模型性能表现;反而可能导致计算开销上升等问题需特别注意。”

在生成人工数据时,我们应予以关注的是这一辅助工具仅作为辅助工具的作用,并非关键所在;真正关键在于对模型性能的优化与改进.我们需要深入思考这一问题.

(1)在当下模型下,有没有必要再去扩大样本量;

(2)将样本扩大十倍的成本是多少?——通常情况下不算太困难,因为互联网资源种类繁多且资源充足,会比预期要简单。

(3)如何增加样本量?生成人工数据与收集真实数据之间存在差异,在介绍'crowd sourcing'技术时提到其应用实例。例如通过 Amazon Mechanical Turk 平台进行标注,其操作成本较高。

4. 天花板分析Ceiling Analysis

对于工程技术人员而言,在时间上最为宝贵的资源。而在机器学习pipelining过程中存在不同的职责划分,在如何分配主要精力的问题上——可以采取ceiling analysis的方法。

天花板分析的核心内容即是对能力上限进行深入研究。对于上述提到的Photo OCR技术而言, 假设当前系统的准确率范围被设定在理论上的最大值即为零至百分之一百, 当前实际值则处于百分之七十二的位置。我们构建了一个能实现各环节在理论上达到百分之一百准确度时的整体系统准确度统计表, 如下图所示。通过分析发现, 本研究认为若能让图像检测环节实现百分之百准确性, 则整体系统的准确性能够提升百分之十七左右。然而即便在此基础上(图像检测已达满分), 后续优化字符分割也只能带来微乎其微的进步(仅提升百分之一)——这并不值得投入资源进行优化工作。值得注意的是, 在此过程中( photo OCR pipeline ), 我们采用的是逐步优化而非并行设计。现实中确实存在并行处理的例子(如如前所述的人脸识别任务), 但根据实验数据统计整理出的表格显示……

全部评论 (0)

还没有任何评论哟~