Research on Map Emotional Semantics using Deep Learning Approach

时间:2023-03-01 点击量:

引用格式:

Daping XiXini HuLin YangNai YangYanzhu Liu& Han Jiang. Research on map emotional semantics using deep learning approach, Cartography and Geographic Information Science, DOI: 10.1080/15230406.2023.2172081 (奚大平, 胡茜妮,杨林等,基于深度学习的地图情感语义研究[J]. Cartography and Geographic Information Science,2023.DOI: DOI: 10.1080/15230406.2023.2172081)

在线阅读链接:https://www.tandfonline.com/eprint/C3TKYDZHMJGUIWYF892N/full?target=10.1080/15230406.2023.2172081

亮点:

1 .构建了一个包含五种离散情感类别的地图情感数据集;2 .通过深度学习方法对地图情感语义进行分类;3 .分析并讨论了影响地图情感的视觉变量。

1. 研究背景:

地图情感语义研究的主要目的是通过计算机技术描述和表达人观察图像所引起的情感反应。如今,地图应用场景趋于多样化,地图受众对情感信息的包容度和需求量增加,这使地图制图面临新的挑战。传统制图过程中由于制图者缺乏对地图情感的评估,导致最终成图难以满足地图用户的情感需求,并不能与用户达成情感上的共鸣。如下面两张美食地图所示,如图1 (a)所示的湘菜地图,以蓝色为主色调,并使用了点状符号法。但蓝色属于冷色调,在颜色心理学中代表理性和忧郁。易使人感到安定和悲伤,并不能帮助读者产生与食欲有关的情绪。这使得地图中的语义信息与情感内涵不一致,并不符合美食地图所希望传递的积极信息。相比之下,图1 (b)则具有更多积极的情感表达特征,如柔和的线条、清新的色彩和卡通图案,更易让人产生积极的情感,从而唤起人们对湘菜的想象与向往。

1 不同视觉变量下的湖南美食地图:(a)不能使人产生食欲的湖南美食地图;(b)可以使人产生食欲的湖南美食地图


这表明地图中不同的视觉变量会形成截然不同的语义信息,从而激发受众不同的情感,如快乐、沮丧、怀旧等等。这些激发受众情感的语义信息便是地图的情感语义。在一张图像中共存在着三个语义层次,从低层到高层分别是特征层、对象层和语义概念层。其中语义概念层包含了情感语义,它与场景语义和行为语义共同构成图像所表达的含义。与其他语义相比,情感语义更具有主观性,与人类的认知模式、文化背景和审美标准密切相关。这造成了低级视觉特征和高级情感语义之间存在的语义鸿沟。解决这个问题的核心是量化地图的情感语义,它可以帮助地图制作者更好地理解地图情感,从而选择与地图内容相得益彰的视觉变量进行表达,提高用户满意度。

该论文旨在应用迁移学习的方法和卷积神经网络(CNN)的高效计算能力来建立地图中视觉变量与情感的关系,以量化地图情感语义。论文的主要工作是:(1)建立了包含5种离散情感类别的地图情感数据集,通过关键词搜索、线上标注以及线下人工标注的方式建立。(2)基于迁移学习的方法将三种不同的CNN模型(VGG16,VGG19,InceptionV3)应用于地图情感量化任务,并通过精确度进行评估其性能;(3)设置了六组不同的参数组合进行实验,确定了学习率和批量大小的最佳组合;(4)根据图表与可视化结果对影响地图情感的视觉变量进行讨论与分析。实验结果表明,CNN在划分地图情感上具有良好的准确率性(约88%),同时地图情感语义具有一些通用的规律和视觉特征,为地图情感语义的深入研究奠定理论和实验基础。

2.技术流程

地图情感语义的分类问题与常规的图像分类任务相似,两者都需要通过模型在图像上学习到的特征来进行区分。不同之处在于,相较于后者依赖于低、中级的特征进行区分,地图情感分类更考验模型对高层特征的理解。此外,地图情感类别对应的特征并不具有唯一性与代表性,例如,相同的视觉变量如果辅以不同的颜色和排列,也会形成不同的情感语义,影响对情感类别的预测。这些因素使地图情感分类更具特殊性。本课题采用了人工标注的辅助形式来建立数据集,使图像标签更具主观性。这有助于训练模型对高层特征的判别能力。主要研究路线如下:首先,构建地图情感数据(包括定义、筛选、标注、增强),然后将其输入地图情感分类模型进行由浅入深的特征学习,建立非线性对应关系。最后通过在数据集上训练得到的权重模型实现对地图情感的分类和预测。技术流程如下图所示。

2 技术流程图

3.地图情感数据集概况

我们通过定义情感空间、数据筛选、数据标注的流程构建了地图情感数据集。最终包含共2797幅原始地图图像,其中包含高兴类别742张,平静类别499张,怀旧类别519张,压抑类别525张,害怕类别512张。图片示例如图3所示。我们将采集的样本拆分为训练集、验证集和测试集,用于最优模型的选择和测试。

3 地图情感数据集中五种不同情感类别的示例图像


4.迁移学习策略:

迁移学习方法是指利用源域中学习的先验知识,来引导、改进其它领域。CNN进行分类任务的实现通常需要训练大量的参数,并且在从头开始训练时通常需要消耗大量的强标注样本。在这种情况下,直接将其应用于地图情感数据集的效果可能并不理想。迁移学习是解决这一问题的关键方法,该策略已被成功应用于各类图像情感分类工作。实现迁移学习的一种常见方法是微调,它通过引入已经在大型数据集上预训练的模型参数来初始化网络层。微调方法大致分为四类:

1、冻结源CNN的权重,即使用原始权重进行特征提取;

2、以非常小的学习率微调源CNN的顶层,并冻结底层网络。前提是源域与目标域的底层特征是通用的。

3、以非常小的学习率微调整个网络的权重。

4、使用CNN的原始架构,而不导入任何权重,即从头开始随机初始化权重。

在本课题中,由于地图情感分类需要学习的特征与先前训练权重任务中图片的特征并不是通用的,是一个全新的分类任务。因此采用了第三种微调方法,这种方法本质上是从更接近最优值的点开始梯度下降学习,与采用随机初始化的参数进行训练相比,它使模型具有更快的收敛速度。使用在ImageNet上预训练的参数对网络进行微调。为了适应地图情感数据集中包含的五个情感类别,重新设计了最后一层将softmax 分类器的输出由1000类改为5类。同时,为防止过拟合状况,我们使用数据增强技术对训练集进行扩充。

5.实验过程

5.1最优模型选取

为了选择最适合地图情感分类的模型,本节将三个模型在相同的条件下进行训练,并从训练集中划分一部分数据作为验证集。对不同模型在相同参数和样本上识别地图情感类别的精度进行评估,结果如表1所示。同时当我们使用在 ImageNet 数据集上训练的模型权重来初始化模型时,网络达到了稳定的初始化状态,这说明迁移学习有助于CNN对地图情感特征的提取和识别能力。最终在迁移学习和过采样方法的帮助下,三个模型均取得了较快的收敛速度。

1 不同模型下的验证集精度

Networks

Accuracy

VGG16

VGG19

InceptionV3

0.797

0.804

0.801

结果表明VGG19InceptionV3在地图情感数据集上比VGG16具有更好的性能,这可能是由于前两个网络更深,能学习到更多的高层特征。VGG19具有最高的预测精度,适用于地图情感数据集的特征学习,这与VGG较强的泛化能力有关,因此使用该模型作为进行地图情感分类的最终模型。

5.2最优参数选取

接下来测试了不同模型参数对地图情感分类的影响。在CNN模型的训练中,学习速率和批量大小是优化模型的关键参数。学习率用于指导模型通过损失函数调整网络的权重。学习速率越高,损失函数的变化越快。Batchsize则是一次迭代中使用的样本数,影响收敛速度和所需内存大小。因此,使用三种不同的学习率(10-4, 5-4 ,10-5 )和两种不同的批量(16, 32),进行了6组对比实验,并使用了早停策略防止训练的过拟合。实验结果如表2所示。

2 VGG19模型在不同超参数下的验证集精度

BachSize

LR=10-4

LR=5-4

LR=10-5

16

0.817

0.828

0.808

32

0.812

0.819

0.788

结果显示出当批量大小为16,学习率为5-4时,该模型在地图情感数据集上的识别效果最好,因此使用该参数进行最终模型的构建。

5.3最优模型精度评估

在模型评估中,根据上文中选取最优超参数重新训练模型,并在测试集上进行评估,计算出准确率精确度、召回率和F1分数各项指标。结果如表3所示。


3 最优模型的总体精度评估

Algorithms

Accuracy

Precision

Recall

F1 score

Fine-tuned VGG19

0.880

0.874

0.875

0.874

结果表明,微调后的VGG19模型在测试集上取得了良好的泛化性,达到88%的准确率。精确度的指数说明针对预测结果而言,在预测为某一类的样本中,样本中有87.4%的真实标签与预测标签相同。召回率的指数表明对于某一类的所有样本而言,被预测正确的样本占87.5%F1分数结合二者进行综合评估。这些指标都在87%左右,说明该模型在地图情感分类中取得了比较稳定的性能。

6.实验结论

6.1基于柱状图的地图情感语义规律分析

如图4所示是根据模型正确预测结果的实例,包含有不同情感类别的占比,概率最大的情感类别被认为是该地图主要的情感语义。结果表明色彩丰富、配色协调的地图更易产生高兴的情感语义,产生平静情感语义的图片大多色彩单调,线条清晰。暗沉的色彩、怪异的纹理对应压抑和害怕类别的情感语义,怀旧类别则具有更多泛黄纸张和古老元素。

另外,图像中不同类别的占比表明,地图中并不总是仅包含单一情感语义,也可能表达多种情感语义。在预测结果为平静的地图中可能会含有部分表达高兴压抑的特征,同理,在预测结果为压抑的地图中也同时包含有害怕的情感语义。这是由于地图间存在一些相似的底层特征,对CNN的分类产生影响,侧面印证了情感语义与底层特征之间复杂的映射关系。以上结果表明一张地图可能包含多种情感语义,产生多向的情感表达,它们由一种主要情感语义和几种次要情感语义来构成最终的情感语义。

4 预测结果示例。概率最大的类别即为该图所属的情感类别

6.2地图情感贡献区域可视化

为了进一步探索影响情感语义的具体特征,以及验证CNN分类的可靠性,我们使用梯度加权类激活映射(Grad-CAM)来突出显示输入图像中影响输出类别的像素,探索图像中不同特征区域对情感分类结果的影响。该实验可用于判断模型提取的特征来源是否符合预期。使用网络最后一层卷积层作为输出,绘制目标类的激活图,然后将原始图像和类激活图叠加起来,显示图像中不同位置对预测结果的影响程度。随着热力图的颜色从蓝色变为红色,该区域对分类结果的贡献逐渐增大。根据图5的结果,可以发现红色区域集中于地图的部分视觉变量上,这说明在预测地图的情感类别时,CNN将这些视觉变量作为判断的主要依据,这与人类主观判断时的依据相似,即网络确实学习到了地图内表达情感的视觉特征,分类结果是有正确依据的。同时,与传统分类中的猫和狗之间具有明显且集中的特征差异不同,地图中的情感特征更加分散和多样。但是,仍然可以获取到一些贡献较大的具体特征,如简约的线条、卡通的房屋、操场或字体、密集的纹理、尖锐的线条以及泛黄的纸张等特征分别对应平静、高兴、压抑、害怕、怀旧的情感语义。证明CNN成功学习到了表达情感语义的视觉变量,并通过这些特征对地图的情感类别进行识别。在未来的工作中,将通过此方法获得更多表达情感语义的特征,并结合其他心理学实验进行验证。

5 每个类别图像的梯度加权类激活热图实例。从左到右分别是平静、高兴、压抑、害怕、怀旧类别的图像。

7.总结

地图情感分析有助于实现内容、形式和情感的统一,让人们更好地接受地图制作者传达的信息和情感,在不同应用场景下与地图产生更多的情感共鸣,丰富用户体验,提高公众对地图的满意度和期待,有利于交叉领域制图学的长远发展。在这项工作中,首次对地图中的情感语义进行量化研究。由于情感的主观性和复杂性,这种量化是比较困难的。鉴于地图上缺乏情感数据,我们提供了一个新的数据库,地图情感数据集。然后应用当前在图像分类中具有显著性能的卷积神经网络对地图情感数据集进行特征提取。通过模型选取和参数调整对不同条件下的网络性能进行评估,获得了最优模型。最终在数据集上取得了88%的准确率。证明了通过CNN对地图进行情感语义量化的可行性和巨大潜力。通过进一步分析,发现积极情感类别的分类效果优于消极情感类别,这与消极情感类别的地图特征差异较大、边界更为模糊有关,需要引入更多具有代表性的消极情感样本进行优化。此外,地图中的特征不仅形成单一的情感语义,而且也会表达多种情感,呈现一类为主,其他为辅的特点。

目前,我们已经完成了地图情感量化的初步工作。掌握了地图中五种情感语义的基本规律与呈现特点。但尚未得到地图中视觉变量和情感语义之间的普适关系。研究中还存在许多不足之处,将在后续实验中尝试更多优化方法。最后,量化地图的情感语义对于地图的检索和设计具有现实意义,也为后续我们有关于地图情感迁移的探究打下基础,具备一定的研究潜力。希望该文在地图情感分析方面的工作能够弥补地图领域视觉情感分析的空白,更好地理解情绪激发和地图视觉变量之间的关系。