Advertisement

论文阅读-CLIPasso-Semantically-Aware Object Sketching(生成-SIGGRAPH 2022 的最佳论文)

阅读量:

Paper:CLIPasso: Semantically-Aware Object Sketching

Code:https://clipasso.github.io/clipasso/

简介:

如图1所示, CLIPasso 需要根据一张具有语义清晰度的图像生成相应的抽象简笔画草图. 其具体要求是: 以较少的手势勾勒出原图的大致轮廓, 同时保持与原图相同的语义内涵.

方法:

简笔画画法并非直接将图像转换为图形。相反地,在本研究中我们采用图形学中的贝塞尔(贝兹)曲线结合随机初始化技术来进行简笔绘画的表现。基于定义平面上关键点的位置与数量的不同特性构建不同形态线条的基础方法是该研究的核心创新之一。其模型架构如图所示,在该架构中核心组件是基于参数化方式绘制贝塞尔曲线的技术这一模块能够将绘制出的线条清晰呈现于画布表面,并最终实现可视化效果。值得注意的是本文提出的主要创新点体现在两个方面:一是所设计的新损失函数以及二是采用了更为科学有效的初始化策略。

贝塞尔曲线由一系列二维空间中的控制点构成,在本文中,默认情况下一个汉字笔画由四个关键点组成。这些控制点位于二维平面内,并且其中任意一点P都可以通过坐标(x, y)来确定其具体位置。为了实现手写体素化效果,在系统中我们采用的是基于机器学习模型进行参数优化后的方法。随后系统根据这些控制点的变化动态生成相应的简笔画画图过程

损失函数:

简笔画需满足两项条件:第一点是确保其语义特征与原始图像保持一致(如明确区分马与非马、牛与非牛等);第二点则要求形态结构与原图相符(例如禁止颠倒动物方向或使其呈跪姿状态)。这两项要求共同构成了完整的视觉规范体系。在CLIPasso算法中实现了上述两项技术要求的具体化体现:其中第一项目标由几何约束机制L_g实现而第二项目标则由语义匹配机制L_s得以保障。

语义损失的概念类似于蒸馏学习的理念,在这一过程中要求模型所获取的目标域表示能够高度接近于CLIP编码器所提取的关键视觉特征。为了实现这一目标,在实际应用中我们需确保原始输入图像与其简化表现形式在语义维度上均为同一类别(如马)。这种设计基础源于CLIP凭借其400百万参数规模的数据集得以实现对各种不同风格图像的有效语义提取能力

该种几何损失与感知损失相类,在约束模型所具有的前几层特征图上有所体现。由于在模型初期阶段学习到的是相对较低层次的几何纹理信息而非高层次语义内容,则通过约束这些浅层特征能够确保原图像与简笔画图像之间的几何轮廓保持一致。

初始化: 为了实现贝塞尔曲线参数的有效初始化,在传统方法中存在较大局限性。具体而言,在完全依赖于初始化贝塞尔曲线的参数时会导致模型训练过程不够稳定。为此研究者们引入了显著性图这一工具来进行辅助操作。具体实施过程中,在经过预先训练好的ViT模型后提取最后一层多头自注意力输出并进行加权平均以获得saliency MAP这一关键指标。通过分析该MAP图上各区域显著程度的变化从而确定采样点的位置选取策略。最终实现的方法是根据该显著区域边界绘制贝塞尔曲线从而使得生成结果与简笔画风格高度一致 这一改进不仅提高了生成性能还简化了后续优化流程

a.采用随机化初始化策略生成右测简笔图示,在文中所提出的优化方法中,发部区域的线条数量减少且面部轮廓分明。

b.引入后处理机制,在单个输入样本基础上生成三组简笔画表示;通过比较各组简笔画对应的损失值来确定最优解作为最终输出。

作者表明,在完成2,897轮参数更新之后,在达到764步计算过程中就能初步呈现清晰的手绘轮廓特征。

模型训练很快,用一张V100GPU就能在6分钟时间里,完成2000个iteration。

可以给不常见的物体生成简笔画,得益于clip模型zero-shot的能力。

无论笔画多还是笔画少,本文模型都更具备语义的信息。

局限性:

当图像带有背景时,模型的效果明显下降;只有在纯白背景下的物体才能表现出良好的效果。本文首先利用U2NET技术从带背景的画面中提取出目标物体,并接着运用clipasso工具为其绘制简笔画风格的图像。这种分阶段处理的方式可能并非最佳方案。

Clipasso的起始阶段是通过并行计算完成的,并非顺序渐进式生成。进而建议采用分步处理的方式,在每一步先确定前一笔的位置作为基准点,在此基础上依次规划后续线条的具体走向。这种方法能够有效提升简笔画创作的整体效率。

通过调节笔画数来设定抽象程度。然而实际上即使想要获得相同的效果,在不同图片中使用的笔画数量也会有所差异。因此我们可以尝试将笔画数量设为一个可优化的参数。这样可以让模型自主决定使用多少笔画。

全部评论 (0)

还没有任何评论哟~