Advertisement

基于多模态融合的非遗图片分类研究

阅读量:

摘要

目的

方法

结果

局限

结论

目的

方法

结果

局限

结论

关键词: 数字人文; 多模态分类; 图片分类

1****引言

非物质文化遗产(简称非遗)源于人民生活,在历史长河中见证了变迁与革新,并成为承载民族文化传承的重要见证[1]。于当代社会背景下,如何有效利用非遗资源、推动科技赋能发展、激发非遗文化活力成为亟待探索的重要课题[2]。随着非物质文化遗产数字化进程的推进,在线平台充斥着大量非物质文化遗产图片资料,但这些图片大多缺乏标签信息支持,导致用户难以识别其中蕴含的文化内涵,这对非物质文化遗产的传播与保护构成挑战。由此可知,在这一背景下构建一个高效精准的非物质文化遗产图片自动分类系统便成为了亟待解决的技术难题。

已有相关研究就非遗图片的分类问题进行了深入探讨[3,4]。然而,在现有研究中发现所采用分类模型多集中于利用图像的底层特征或高层特征作为输入信息(如图1所示),这一方法虽然在一定程度上取得了不错的效果[3,4]但存在明显局限性:即未能充分挖掘文字描述所带来的潜在信息价值。值得注意的是,在我国丰富的非物质文化遗产中许多作品都配备了精美的文字描述内容这些文字信息往往能够为图像识别提供重要的线索:以下结合杨柳青年画这一典型案例(如图1所示)进行分析:该作品的主要艺术特色在于描绘一位娃娃常伴随手持莲花或怀抱鲤鱼等方式展现这种形象既体现了传统文人雅趣又寄托着人们对美好生活的向往:而其对应的文字段落则恰好能够辅助模型更好地理解作品的主题内容进而提升模型识别的能力。

图1

1非遗图片及文本描述示例

Fig.1 An Example of ICH Image and Its Textual Description

结合图片和文本描述对非遗进行分类属于多模态分类问题,而多模态分类问题的关键在于捕捉模态内(Intra)和模态间(Inter)的交互特征。模态间交互(Inter-Interaction)多以不同模态特征的拼接、相加、相乘等方式为主[5,6];而在模态内交互(Intra-Interaction)中,通过建模获取单模态的高层语义特征是其中的关键[7],在图片特征抽取中,现有研究多利用深度预训练模型直接抽取图片的视觉语义特征[8,9],之后将其输入多模态分类模型中。尽管能够取得一定效果,但是迁移到具体领域中,利用这样的方式抽取得到的高层语义特征并不能较好地表达图片。同时,尽管已有研究表明在不同领域任务中,对深度预训练模型进行微调能够取得性能上的提升[10],但是在多模态分类问题中,却缺乏对此的深入探讨。

针对现有研究的局限性,本研究以上述四个国家级非物质文化遗产为例,结合详细文本描述,采用多模态融合方法对非遗图片分类问题进行了深入探索与系统性研究。具体而言,本研究设计并实现了一个基于多模态融合的非遗图片分类模型(Image Classification Model with Multimodal Fusion, ICMMF),该模型由经过微调学习的预训练CNN提取领域特定迁移学习后的视觉语义特征,BERT(Bidirectional Encoder Representation Transformers)[11]用于建模文本模态并获取富含语义信息的文字特征;随后通过拼接操作将视觉与文本语义特征进行融合处理,生成多模态融合后的综合特征;最后将此特征输入_Softmax_层进行 Softmax 分类,输出预测结果为具体的年画类别。在本研究中取得的主要贡献包括:

  1. 针对非遗图像分类任务,提出了一种创新性的多模态融合模型框架ICMMF;2. 详细阐述了模型各组分的功能机制及其协同作用过程;3. 通过实验验证所设计方法的有效性与优越性

鉴于现有非物质文化遗产等文化资源图片分类研究存在不足,在此基础上进一步提出一种利用非遗图片中的文本信息,并通过多模态数据融合的方法展开非物质文化遗产图片分类的研究工作。

(2)在多模态分类图片特征提取过程中,存在领域迁移能力不足的问题,通过微调优化模型参数后,能够显著提升视觉语义特征的表现,并对其提取出的视觉语义特征进行可视化展示。

针对提出的基于多模态融合的非遗图片分类模型ICMMF, 本研究对...年画数据集进行实验验证,并与现有对比基准模型的性能进行评估。

2****研究现状

非遗传保护与传承在提升我国文化软实力及构建文化强国的过程中扮演着重要角色。数字化建设不断优化和完善非遗记录,并创造出了海量等待发掘的珍贵数据资源,包括但不限于文字资料以及图片素材。

2.1 非遗图片分类

以非遗文本作为数据来源,现有研究主要依赖于深度学习方法,通过循环神经网络、图卷积神经网络以及条件随机场等技术手段,采用序列标注的方式从文本中提取非遗术语[12]和非遗实体[13],为其后续的知识组织与知识图谱构建奠定基础。对于非物质文化遗产图片,其语义描述[14]以及图像分类[15]已然成为当前研究的核心议题。在非物质文化遗产图片分类工作中,现有研究主要将手工特征或基于深度预训练模型直接提取的视觉语义特征作为输入特征,随后将这些特征输入至支持向量机(Support Vector Machine,SVM)等分类器中完成图像分类任务[16]。例如,Do等人采用不同深度预训练模型提取图片特征后,分别基于支持向量机(Support Vector Machine,SVM)构建了非物质文化遗产图片分类模型,并通过集成学习的方法优化了整体性能并取得了一定效果。为了对文化遗产建筑类图片进行分类,Janković等人设计了多种基于手工视觉特征的分类模型,并与卷积神经网络模型(Convolutional Neural Network,CNN)进行了性能对比实验,结果表明CNN在文化遗产图像分类任务中表现出更强的优势。尽管目前的方法在性能上取得了一定进展,但它们却忽视了一个重要因素:非物质文化遗产图像的相关文本信息是理解与区分图像类型的重要线索,能够为图像分类提供强有力的支撑信息。此外研究表明:结合图像与其相关联的文字描述特征,并采用多模态融合的方式进行分类任务处理能够显著提升分类性能[17].受此启发,本文提出了一种新型的方法:结合非物质文化遗产图像与其对应的文字描述信息为基础构建多模态融合模型ICMMF

2.2 多模态分类

在多模态分类任务中,不同模态的特质量对整体性能具有显著影响[18].现有研究表明,图片模块通常采用从大规模数据集预训练的深度学习模型来提取特质量疑疑虑虑虑虑虑虑虑虑虑虑虑虑虑虑虑虑虑虑虑虑虑考虑考虑考虑考虑考虑考虑考虑考虑到考虑到考虑到考虑到考虑到考虑到考虑到考虑到考虑到考虑到考虑到考虑到考虑到考虑到考虑到要考虑][19].例如,Xu等[8]基于ImageNet数据集使用VGG19模型提取视觉特性并输入到多层感知机中进行处理,Huang等[9]则基于深度预训练模型VGG16提取图片模块中的视觉语义特性并通过张量融合进一步优化信息.然而,在具体应用场景迁移时会遇到表征效果欠佳及分类性能较低等问题.已有研究表明,通过微调深度预训练模型能够显著提升输出表征的效果并带来性能提升;然而,在微调过程中发现其主要集中在全连接层及其维度大小等方面的研究较多.值得注意的是,用于图像模块特征求取的主要深度学习架构是基于卷积神经网络(CNN)的设计.

3****模型构建

利用多种数据类型的多模态融合技术构建的非遗图片分类模型具体如图2所示,主要由经过微调优化的卷积神经网络(CNN)、BERT、融合模块和分类器组成。

图2

2基于多模态融合的非遗图片分类模型

Fig.2 ICH Image Classification Model Based on Multimodal Fusion

3.1 图片特征抽取

在多模态分类领域中,已有研究多采用基于ImageNet的大规模数据集进行了预训练的深度模型来进行图像特征提取,并列举了如VGG16、VGG19等知名网络[9,20]作为代表。然而,在面对特定领域的问题时,仅依赖此类通用方法提取到的视觉语义特征往往无法充分地表征图像内容。因此,在现有技术的基础上,我们采取了微调策略以优化迁移学习后生成的图像特征,并在此过程中取得了显著的效果提升。

在研究者Campos等[10]的研究中,通过优化微调策略以增加全连接层以及提高其维度大小的方式实现了性能提升.该研究并未考虑到原始模型架构中的卷积神经网络(CNN)层进行微调.然而,CNN层作为分类模型学习图片高层语义特征的重要组成部分,对于提升整体模型的表达能力具有不可替代的作用.因此,在本研究中我们对预训练模型中的卷积神经网络(CNN)层进行了系统性优化与微调处理.

该模型旨在实现微调任务,并基于VGG19网络进行构建。具体而言,在ImageNet数据集上预先训练好的VGG19网络作为基础架构,在此之上去除了原有的全连接层结构,并新增了一层全连接层以及一层用于分类识别的Softmax层(如图3所示)。该模型由五个独立的功能模块构成(如图3所示),其中每个模块包含不同数量的卷积神经网络(CNN)层数目以及特定尺寸与数量的不同滤波器;其中"Conv"代表卷积神经网络(CNN)层;"3 ××3"表示滤波器尺寸;括号内的数值512表示对应滤波器的数量;"Flatten"操作负责将输出数据展平;而"FC-layer"(简称fc)则代表全连接层,在此过程中括号内的数值反映了其输出维度。

图3

3 FICM结构

Fig.3 The Structure of FICM

在处理涉及 block 4内容时,由于池化模块不含可学习参数,因此无需对该池化模块进行额外调整。为了详细阐述这一过程,在具体实施时我们选取了对 block_conv 2这一特定模块作为示例来进行说明。在实际操作中发现,在该模块 _conv 2的学习过程中,并非所有参数都会被更新优化——只有当前该学习模块及其后续处理环节会参与到整体模型的学习过程中去;而位于该学习模块之前的其他子网络则保持固定参数状态以避免干扰。通过依次对该块中的每个CNN模块进行学习优化操作后最终能够确定出最优的学习位置点;最后阶段我们采用去除了分类器输出(Softmax)部分后的FICM模型来提取非遗图片图像级别的视觉语义特征表示信息。对于给定的一张非遗图片 II,在这一处理流程下我们能够获得其对应的视觉语义特征表示信息如公式(1)所示。

V=fFICM−fc(I;θFICM−fc),V∈RDVV=fFICM-fc(I;θFICM-fc),V∈RDV

(1)

其中,f_{\text{FC}}^{\text{FC}}代表去除了\text{Softmax}层后的模型;\theta_{\text{FC}}^{\text{FC}}用于表示网络中需进行参数训练的部分;DVDV设定为视觉语义特征向量维度大小为512

3.2 文本特征抽取

在文本特征提取方面,与现有文献中采用的基于词向量的方法[22]相比,本研究通过预训练语言模型BERT[11]对非遗图片中的文本描述进行了语义特征提取以及上下文信息的学习。相较于传统的词向量表示方法,BERT模型能够根据不同的上下文环境赋予每个Token独特的表征向量,这不仅增强了文本表达的语义深度,还为非遗领域中不同模态之间内容的有效交互提供了技术基础。

包含了非遗图片描述文本T=\{t_1,t_2,\dots,t_n\}。其中n用于表示文本长度。通过使用BERT模型提取得到的文本特征如公式(2)所示。

E=fBERT(T;θBERT),E∈RDE×nE=fBERT(T;θBERT),E∈RDE×n

(2)

其中, θBERTθ Bert represents the parameters of the BERT model; DEDE denotes the token dimension, set to 768. Through average pooling of the text description encoding feature EE from traditional Chinese folk art images, a sentence-level text representation vector S ∈ R^768 is obtained.

3.3 多模态融合及分类

借助多模态融合技术,在不同数据类型间建立互动关系,并产出高度抽象的多模态特征向量(...),成为优化多模态分析系统的核心要素。本文参考文献[23]的方法论,在非遗图像与文本特征之间构建连接,并合成一个综合性的长向量序列(...)。值得注意的是,这种较为简单的整合手段虽然在实现上较为直接,却展现出显著的效果([24])。

通过收集非遗图片的视觉语义表示向量VV和文本描述表示向量SS进行融合处理,经过融合后得到多模态表示向量如公式(3)所示。

M=V⨁S,M∈R1280M=V⨁S,M∈R1280

(3)

其中符号⨁⨁代表拼接运算,在经过融合得到1280维的多模态向量特征后,则将该特征量 M 代入到预设的多层全连接神经网络模型中进行计算处理,在此过程中可推导出非遗图片所属类别预测结果,请参考公式(4)详细推导过程

Y˜=ffc(M;θfc),Y˜∈RcY˜=ffc(M;θfc),Y˜∈Rc

(4)

在其中, θfcθfc代表全连接层中的可训练参数, 而cc则代表预测的目标类别数量。该模型采用了交叉熵损失函数进行训练(如公式5所示)。

loss=−∑iYlogY˜loss=-∑iYlogY˜

(5)

其中, lossloss表示损失值, YY表示真实标签。

4****实证研究

4.1 数据获取及预处理

基于地域特征及传统年画绘画技法的特点分析下,我国传统年画大致可分为四种类型:天津杨柳青年画、苏州桃花坞年画、潍坊杨家埠年画以及绵竹 yearn 画.本研究计划利用百度图片平台作为数据采集的基础,构建爬虫程序框架,以'杨柳青年画'、'桃花坞年画'、'杨家埠 yearn 画'及'绵竹 yearn 画'等关键词构建爬虫查询参数集合.通过解析网页代码获取相应信息,并结合文本标注技术提取并解析图片元数据.随后,将获取到的图片链接与对应的描述性文字信息进行关联存储,最终完成一批具有代表性的传统年画样本库的建立.

对获取到的这批年画数据实施预处理,在筛选过程中将所有与内容无关以及相关描述不符的内容剔除;在筛选过程中若某一类样本中存在不属于该类的内容也会被剔除。随后并对这些样本中的文字表述进行去停用词处理;经过上述处理后可观察至原始样本和最终分类结果的数量统计情况如 1 所示;其中数字即代表各类别图像的数量也代表对应的文字描述。

1年画类别图片及文本描述数量分布

Table 1: Distribution of Quantity of New Year Images’ Prints and Textual Descriptions In Different Types Of

|

|
|---|

4.2 评估指标

基于文献[22]中的评估方法,采用精确率、召回率和F1值等指标作为评价依据。对于各类(year)画分类的具体评价标准及其计算方式,请参考公式(6)-(8)。

Precision=TPTP+FPPrecision=TPTP+FP

(6)

Recall=TPTP+FNRecall=TPTP+FN

(7)

The F-score is calculated as two multiplied by Precision and multiplied by Recall, then divided by the sum of Precision and Recall.

(8)

其中,TP 即为真阳性和真阴性之间的差异指标, FP 代表在实际属于阴性类别的情况下误判其属于阳性的案例数量,而 FN 则表示实际应归入阳性类别却误判为阴性的案例数目。

4.3 基线模型

为了验证所提模型的有效性,本文采用了具有优异性能的模型作为对比实验的基础模型

本研究采用了VGG19[21]模型。基于其深度的网络架构,在多项图像处理任务中展现出卓越的效果。为了考察迁移学习在跨领域应用中的有效性,并采用了年画数据作为训练集,并对所选模型进行了全面重训。

(2)CNN[25]。为了验证深度模型结构在图片分类方面的性能,本文构建了一个浅层的CNN模型架构,其卷积模块与VGG19网络中的前两个block完全一致,随后依次接入一个512维的全连接层模块(激活函数为 relu )以及一个 Softmax 层模块。

(3)SVM(V)[3]。在分类问题中,SVM被视为一种核心机器学习模型。本文的方法是通过从预训练的VGG19网络提取特征,并对这些特征进行处理后作为输入传递给SVM进行分类任务。其中,V表示图像数据。

(4)BERT[11]

基于融合后的特征向量构建SVM(V+T)[26]模型,在图像分类任务中用于识别传统年画类型

4.3 模型参数设置及实验环境

本文利用的VGG19模型来自于TensorFlow库中,预训练权重为ImageNet,其中的include_top参数为false,即不包含全连接层。BERT模型加载的权重为中文 bert-base-uncased 。利用OpenCV读取年画图片,将其尺寸调整224×224,带有RGB彩色三通道,并进行归一化处理,作为模型的输入。ICMMF使用的优化器为随机梯度下降(Stochastic Gradient Descent,SGD),学习率大小设置为0.001,动量大小为0.9。批次大小设置为16,训练轮数设置为50。为抑制过拟合,本文采用 dropout 技术[27],设置为0.5(具体调试过程见4.5节)。全连接层中使用的激活函数为 relu[28]。为保证结果的可靠性,采用5折交叉方法进行实验,即按照类别数量的分布,将样本分成5份,取其中的4份作为训练集,剩余的1份作为测试集,重复5次,将得到指标结果进行平均,作为最终的结果。

本研究中所有实验程序均基于Python 3.8开发,并采用TensorFlow 2.3作为深度学习框架。所有实验均在运行内存配置为128 GB的服务器上运行,并配备一块内存容量为8 GB且型号为NVIDIA GeForce RTX 2080ti的GPU。

4.4 结果与讨论

(1) 微调结果与讨论

为了探究微调在年画图片分类任务中的具体应用及其最佳适用层级,并建立相应的评估体系,本研究提出了一种基于细粒度图像分类(FICM)的方法

2FICM** block4的各卷积层及全连接层(**** fc****)微调的结果**

Tabellen 2: 微调效果对比:卷积层与全连接层在FICM框架中的第4块分析

模型 Precision****% Recall%****) F1%
block 4 _conv 1 69.987 67.485 67.687
block 4 _conv 2 72.675 71.432 71.684
block 4 _conv 3 73.066 71.794 72.028
block 4 _conv 4 68.549 68.149 68.119
fc 65.480 63.445 63.092

因此,在本研究中,默认将最佳微调层配置为第4个块和第3个卷积层。为了观察微调效果,在FICM模型中选择并分析了第5个块及其内部各卷积层输出特征的表现形式(如 图 3 所示)。其中第一组原始样本选取了具有代表性的绵竹年画作品(第一张原始图片示例),第二组则采用了杨柳青年画样本(第二张原始图片示例),第三组选取的是杨家埠 yearbook samples(第三张原始图片示例)。通过多级特征提取过程可以看出,在模型逐步学习过程中其关注区域呈现出明显的演变趋势:从初始阶段仅关注图像外围区域,在多次迭代后则能够更加突出识别图像中最具辨识度的部分。这表明该方法在提升模型视觉语义表征能力方面展现出显著的效果。

3 FICM** block5中各卷积层的可视化结果**

Table 3 Visualization Results of Convolutional Layers in block 5 of FICM

原始图片 **block**5 _conv 1 **block**5 _conv 2 **block**5 _conv 3 **block**5 _conv 4

|

|

|

|

|
|

|

|

|

|

|
|

|

|

|

|

|

(2) 对比结果及讨论

对比实验结果表明, 4 显示了ICMMF与传统方法的性能差异。研究表明,ICMMF在多个关键指标上表现优异。与基于单一图像特征的传统分类器相比,本研究通过引入迁移学习方法显著提升了分类精度。通过对比实验发现,VGG19较CNN表现出更优的分类效果;而结合 3 4 的结果可知,经过微调优化后的FICM系统相较于直接训练VGG19取得了显著提升,F-值较后者高约3%。这些结果进一步验证了迁移学习策略的有效性及其在资源有限条件下的优势。此外,基于深度学习框架构建的年画分类系统其性能均优于支持向量机(SVM)算法(V),这一结论充分体现了深度学习技术在图像识别任务中的卓越性能

4 ICMMF同各基线模型的对比结果

Table 4 Results Between ICMMF and Other Baseline Models

模型 Precision%****) Recall%****) F1%
VGG19 69.696 68.814 68.721
CNN 65.399 62.624 62.997
SVM (V) 61.293 60.106 60.116
BERT 72.599 71.766 71.568
SVM (V+T) 75.748 73.690 73.885
ICMMF 78.813 77.113 77.574

在不同单模态分类模型的技术对比实验中,研究发现:基于对偶模态特征提取的新颖多模态融合模型ICMMF展现出明显的优势,其整体表现均超越传统单模态方法;这一研究结果证实通过多模态信息融合的方法对非遗图像进行分类,能够生成具有更强语义表达能力的特征向量;这种效果同样在基于向量空间模型(SVM-V+T)与(SVM-V)的相关实验分析中得以体现

本文重点阐述了多模态融合在非遗图片分类中的应用价值,在具体分析中分别采用图像特征、文本信息以及图像与文本的交互机制对各类非遗年画进行分类测试(图4)。

图4

4利用不同模态的各类别年画分类结果

Fig.4 分类分析多媒介新年艺术作品的表现

结果显示,将图像与文本描述相结合的模型在分类性能上明显优于各单一模态的效果。这表明,通过引入文本描述能够显著提升非遗图像的分类能力。

4.5 参数调节

本文主要运用了 dropout 技术来抑制模型的过拟合现象,在其中该技术中的参数设置直接影响到模型在判别年画图片方面的分类效果。为此我们展开了系列系统的调节研究,并在 表格 5 中展示了具体的数据结果。实验发现,在设置 dropout 值为 0.5 的情况下取得了最佳分类准确率,在此基础上进一步降低 dropout 值时会使得分类准确率出现明显下降的趋势。基于以上分析,在本研究中我们最终确定了 dropout 系数设为 0.5 并取得了令人满意的实验效果。

5 dropout值对ICMMF模型性能的影响

Table 5 The Impact of dropout Value on the Performance of ICMMF Model

**dropout** F1%
0.9 71.856
0.7 76.784
0.5 77.574
0.3 72.982
0.1 74.775

5****结语

针对当前非物质文化遗产(NP)图片分类研究中存在的局限性问题,在结合NP pictures文本描述的基础上提出了一种基于多模态融合的新颖方法,并构建了名为ICMMF的非遗产多模态图像分类模型。现有研究表明,在图片特征提取过程中主要依赖深度预训练模型直接抽取特征信息;然而这一做法存在缺陷:即在经过领域迁移后所提取的图像特征表现较为欠佳。基于上述观察与分析,在此基础上我们对领域迁移后的深度预训练模型进行了优化微调处理,并构建相应的FICM辅助其参数优化过程。为了验证所提方法的有效性,在实证研究中选取国家级非物质文化遗产——中国年画作为代表案例,并以年画种类分类为目标开展相关实验验证工作;实验结果表明,在卷积层参数微调优化后能够显著提升图像分类模型的表现效果;此外,在最佳微调模型基础上进一步分析并展示了卷积层输出的结果分布情况

然而,在多模态融合框架下,本文将非遗图片描述文本统一表现为单一的向量表示,并未充分考虑描述文本中潜在的多维度特征信息;为此,我们计划在未来的研究工作中深入探讨这一问题。此外,在更大规模的数据集上进行模型验证与测试的同时,如何优化模块内以及模块间交互机制也将成为未来研究的重点方向

全部评论 (0)

还没有任何评论哟~