学术动态丨刘亦书 基于无监督深度迁移学习的遥感图像检索研究
必威betway体育官方网站/学院新闻2021-02-09 21:26:00来源:必威betway体育官方网站评论:0点击:收藏本文
作者丨刘亦书
中山大学,博士;必威betway体育官方网站,必威betway体育官方网站,教授。
http://staff.scnu.edu.cn/yishuliu
研究背景
随着遥感传感器技术的快速发展,遥感图像的数量出现了爆炸式增长,如何对这些海量数据进行智能化管理已经成为一个刻不容缓的问题。基于内容的图像检索是智能化管理的关键前提,它旨在从大规模的遥感图像库中找出与给定的查询图像 “看起来很像”的图像。
近年来,卷积神经网络(convolutional neural network,简称“CNN”)以其压倒性的性能优势迅速成为遥感图像检索领域的主流方法。然而,CNN有一个饱受诟病的缺点——它的训练过程是有监督的,需要海量的有标签图像作为训练样本;而标签匮乏是遥感领域一个普遍存在的问题。同时,基于CNN的方法还有模型庞大臃肿、特性冗长累赘等弊端。
研究目标
本文旨在解决上述问题。我们不使用任何遥感图像标签(故说“无监督”),训练出一个全新的CNN,其“体形”轻巧灵便,其特征简洁紧凑。
研究方法
总体思路:
我们搭建一个以预测图像对相似性为目的的孪生卷积神经网络(similarity-based Siamese convolutional neural network,简称“SBS-CNN”),其输入是一对遥感图像。SBS-CNN包括两部分:第一部分是由两个完全一样的特征学习分支网络构成的孪生网络,每个分支负责学习对应的输入图像的深度特征;第二部分是相似性学习网络,负责预测一对输入图像的相似性。SBS-CNN的架构如图1所示。
图1 网络架构
相似性真实值由E(E > 2)个预训练的经典CNN(它们是在有标签的日常图像库ImageNet上训练出的网络模型,我们称之为“专家”)提供:我们将每个专家当作现成的特征生成器,提取图像特征,进而计算输入图像对的E个相似性,最后通过一些数学手段(具体过程略)算出输入图像对的相似性真实值。
SBS-CNN的训练目标是最小化输入图像对的相似性预测值和真实值之间的差距。换言之,E个专家通过相似性计算为SBS-CNN的训练提供监督信息,而专家计算图像相似性是不需要标签的,所以,这实际上是一种无监督迁移学习方法——通过E个专家,我们将知识从ImageNet(源域)迁移到遥感图像库(目标域),且迁移过程无需使用任何遥感图像标签。
因为图像的相似性是区间[0, 1]中的某个值,所以,最直观最简单的做法是让输出层的神经元个数为1,即n=1。这时,图1中的网络是一个深度回归模型。
将深度回归转化成深度有序分类:
现有研究结果表明:深度回归对异常值非常敏感,这导致训练时间长、预测值不稳定和模型泛化能力差等一系列问题。为了解决这些问题,我们将深度回归转化为深度有序分类——将区间[0, 1]等分为n(n > 1)个小区间,如果一对图像的相似性(可以是相似性真实值,也可以是相似性预测值)属于第k个小区间,则这对图像的标签为“k”。
为SBS-CNN量身定做一个损失函数:
交叉熵损失是最常用的CNN损失函数。然而,它忽视了类间的次序信息,因而不适合有序分类模型。为了解决这个问题,我们利用一维Wasserstein定理,为SBS-CNN构造一个新的损失函数——加权Wasserstein有序损失(构造过程涉及很多数学问题,略)。
实 验
实验配置:
在我们的实验中,训练集是NWPU-RESISC45,测试集是PatternNet和UC-Merced,它们都是航空图像库。
我们使用了5个专家:CaffeRef、VGG-S、GoogLeNet、NetVLAD和ResNet50。它们都是广为人知的经典CNN,可从网上下载。
SBS-CNN的详细网络结构见原文。这里我们只强调:SBS-CNN的网络参数量仅为10 M,特征长度仅为256。以常用的CaffeRef作为对比,后者的网络参数量是60 M,特征长度是4096。
实验结论:
我们通过实验考察输出层神经元数量n和专家数量E对检索性能的影响,分析交叉熵损失和加权Wasserstein有序损失的性能差异,并从不同角度对SBS-CNN和现有CNN模型进行对比。实验结果见原文。根据实验结果,我们得出如下结论:
1. 在PatternNet和UC-Merced上,输出层神经元数量的最优值分别是35和30;
2. 专家数量E越大,SBS-CNN的检索性能越高;
3. 就检索性能而言,加权Wasserstein有序损失优于交叉熵损失;
4. 就检索性能而言,我们的无监督SBS-CNN模型优于现有的有监督CNN模型;此外,它还有体形小、特征短和检索速度快等优点。
总 结
训练CNN需要大量的有标签数据,而为大量数据打标签是一项极其耗时耗力甚至无法实现的工作,这是当前人工智能学界和业界面临的一个难题。本文提出一种无监督深度迁移学习方法,在不使用任何遥感图像标签的情况下,训练出一个新的网络模型——SBS-CNN,并将其应用于遥感图像检索。SBS-CNN是遥感领域第一个无监督CNN模型,它体态轻盈,特征紧凑,克服了现有CNN模型普遍存在的缺点。
原文出处:
Yishu Liu*, Liwang Ding, Conghui Chen, and Yingbin Liu. “Similarity-Based Unsupervised Deep Transfer Learning for Remote Sensing Image Retrieval,” IEEE Transactions on Geoscience and Remote Sensing, DOI: 10.1109/TGRS.2020.2984703, Apr. 2020.
拓展阅读:
[1] Yishu Liu*, Zhengzhuo Han, Conghui Chen, Liwang Ding, and Yingbin Liu. “Eagle-Eyed Multitask CNNs for Aerial Image Retrieval and Scene Classification,” IEEE Transactions on Geoscience and Remote Sensing, DOI: 10.1109/TGRS.2020.2979011, Mar. 2020.
[2] Yishu Liu*, Ching Y. Suen, Yingbin Liu, and Liwang Ding. “Scene Classification Using Hierarchical Wasserstein CNN,” IEEE Transactions on Geoscience and Remote Sensing, 57(5): 2494-2509, May 2019.
[3] Yishu Liu*, Yingbin Liu, Conghui Chen, and Liwang Ding. “Remote-Sensing Image Retrieval with Tree-Triplet-Classification Networks,” Neurocomputing, DOI: 10.1016/j.neucom.2020.04.038, May 2020.
[4] Yishu Liu*, Conghui Chen, Zhengzhuo Han, Liwang Ding, and Yingbin Liu. “High-Resolution Remote Sensing Image Retrieval Based on Classification-Similarity Networks and Double Fusion,” IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 13: 1119-1133, Mar. 2020.
执行编辑丨地科院地理信息科学系 韩政卓
地科院研究生会 汤芊沛
责任编辑丨地科院地理信息科学系
标签: