0%

论文阅读:Reinforced-Cross-Domain-Knowledge-Distillation-on-Time-Series-Data

本文提出了一种名为强化跨域知识蒸馏(Reinforced Cross-Domain Knowledge Distillation, RCD-KD)的框架,旨在解决时间序列数据中的无监督域适应问题,同时减少模型复杂度,以便在资源受限的设备上部署。文章通过结合强化学习和对抗性训练,实现了在保持模型轻量化的同时,提高模型在目标域上的泛化能力。

研究背景

深度神经网络(DNNs)在时间序列应用中取得了显著成功,但在新数据上的泛化能力有限,尤其是在训练数据和部署数据分布不一致时。无监督域适应(UDA)方法通过转移源域(有标签)到目标域(无标签)的不变知识来解决这一问题,但这些方法通常依赖于复杂的网络架构,难以在资源受限的设备上部署。现有的知识蒸馏(KD)方法在整合到UDA框架时,往往忽视了教师和学生网络容量的差距,导致蒸馏效率低下。因此,本文提出了一种新的框架,通过动态选择适合的目标域样本来提高知识转移的效率。

研究方法

强化跨域知识蒸馏(RCD-KD)框架

RCD-KD框架包含两个主要组件:一个对抗性域判别器和一个基于强化学习的目标样本选择模块。

  1. 对抗性域判别器:该模块用于对齐教师和学生模型在源域和目标域之间的特征表示,以转移域不变知识。通过最小化域判别器的损失函数,学生模型可以学习到与教师模型相似的域不变特征。
  2. 强化学习目标样本选择:该模块通过一个基于深度Q网络(DQN)的策略来选择目标样本,以动态地转移教师模型的知识。具体来说,使用了一个带有新颖奖励函数的对抗性DDQN,根据学生的网络容量选择最优的目标样本。

image-20250409230850374

奖励函数设计

奖励函数是强化学习中的关键组成部分,它为模型提供了一种评估其行为好坏的依据。在本文提出的方法中,奖励函数的作用在于引导模型选择合适的样本进行知识蒸馏,从而有效地转移教师模型的知识。以下是对奖励函数设计的详细说明:

1. 基础知识

  • 动作(Action):在强化学习的场景下,动作表示在特定状态下采取的行为。对于本文中的目标样本选择任务,动作 表示是否保留目标样本 ,其中 ,其中 表示不保留(丢弃), 表示保留。
  • 不确定性:不确定性用于衡量模型对样本预测的置信度。较高的不确定性意味着模型对样本的预测不自信。本文中,不确定性是通过模型的预测熵来计算的,预测熵越大,不确定性越高。
  • KL散度:Kullback-Leibler 散度用于衡量两个概率分布之间的差异。在本文中,它用于评估学生模型和教师模型在目标样本上的预测分布之间的差异,从而衡量样本的可转移性。

2. 奖励函数的组成部分

奖励函数由三个部分组成:

  1. 动作奖励:这是由动作引入的奖励,表示是否保留目标样本。
  2. 不确定性一致性奖励:衡量学生和教师模型对目标样本预测的不确定性是否一致。
  3. 样本可转移性奖励 :基于KL散度,衡量学生和教师模型在目标样本上的预测分布之间的差异。

3. 作用机制

  • 动作奖励:直接奖励选择样本的行为,鼓励模型更积极地探索。
  • 不确定性一致性奖励:确保学生和教师模型在目标样本上的不确定性是一致的,避免选择那些教师模型不确定的样本。
  • 样本可转移性奖励:基于KL散度,鼓励模型选择那些学生模型更容易学习的样本。

通过这种方式,奖励函数能够有效地引导模型选择合适的样本进行知识蒸馏,从而提高模型的泛化能力。

学生模型优化

学生模型通过最小化蒸馏损失(LRKD)和域混淆损失(LDC)来优化。蒸馏损失通过选择的目标样本来计算,而域混淆损失则通过对抗性训练来实现。

学生模型优化是强化跨域知识蒸馏(RCD-KD)框架中的关键步骤,旨在通过有效的知识转移和域不变特征学习,提高学生模型在目标域上的性能。以下是学生模型优化的详细说明:

1. 优化目标

学生模型的优化目标是通过最小化两个主要损失函数来实现的:

  1. 蒸馏损失(Distillation Loss, ):用于从教师模型中转移知识。
  2. 域混淆损失(Domain Confusion Loss, ):用于学习域不变特征。

最终的损失函数 是这两个损失的加权和。

2. 蒸馏损失()

蒸馏损失通过强化学习模块选择的目标样本来计算。具体来说,蒸馏损失是学生模型和教师模型在选定目标样本上的预测分布之间的Kullback-Leibler 散度。蒸馏损失的公式为:

image-20250409224218490

其中:

  • $X_b$是当前批次的样本。
  • $w_j$是由强化学习模块输出的二进制权重,表示是否保留目标样本$x_j$ 。
  • $p^T_i$是教师模型对样本$x_j$的预测概率。
  • $q^S_i$是学生模型对样本$x_j$的预测概率。

通过最小化 ,学生模型可以学习到教师模型在目标样本上的预测分布,从而提高其在目标域上的性能。

3. 域混淆损失()

域混淆损失通过对抗性训练来实现,旨在使学生模型的特征表示在源域和目标域之间具有域不变性。具体来说,域混淆损失是学生模型的特征表示通过域判别器后的分类损失。域混淆损失的公式为:

image-20250409224338792

其中:

  • $\Phi$是域判别器。
  • $\psi$是适配器层,用于匹配学生模型和教师模型的特征维度。
  • $F^S$是学生模型的特征提取器。
  • $x_{tgt}$是目标域样本。

通过最小化 ,学生模型可以学习到在源域和目标域之间具有域不变性的特征表示,从而提高其在目标域上的泛化能力。

域混淆损失的通俗理解

训练了一个识别猫的“专家老师”(功能强大的模型),它看了很多照片(源域数据)。现在你想训练一个“小学生”(更简单的模型)也学会识别猫,但是小学生只能看到一些不太一样的照片,比如光线比较暗,或者猫的品种不太一样(目标域数据)。

域混淆损失就像是给小学生设置的一个“捣乱”的任务,目的是让小学生学到识别猫的通用知识,而不是只记住特定照片的特征。

具体来说,它是这样工作的:

  • 我们有一个“判断专家”(域判别器),它的任务是判断一张图片(更准确地说,是图片提取出来的特征)是来自老师看过的照片(源域)还是小学生看过的照片(目标域)
  • 我们的“小学生”在学习的时候,不仅要努力模仿“专家老师”识别猫(这是知识蒸馏的部分),还要努力让“判断专家”猜不出来它正在看的是哪种照片(源域的还是目标域的)
  • 域混淆损失就是用来衡量“小学生”**成功“捣乱”**的程度的。如果“判断专家”总是能很容易地猜出来照片的来源,那么域混淆损失就很大。如果“判断专家”经常猜错,搞不清楚来源,那么域混淆损失就很小。
  • 我们训练“小学生”的目标之一就是最小化这个域混淆损失。当这个损失很小时,就意味着“小学生”提取出来的特征,无论是来自它自己看到的目标域照片,还是模仿老师的源域知识,都变得非常相似,无法区分来源了。
  • 这样做的目的是什么呢?因为我们相信,如果“小学生”学到的特征在源域和目标域之间都差不多,那么这些特征很可能就是识别猫的真正关键特征,而不是特定于某种照片的“偏见”。这样,即使小学生看到新的、目标域的照片,也能更好地识别出猫。

简单来说,域混淆损失通过一个“判断专家”来迫使“小学生”学习到跨不同数据类型都通用的知识,从而解决在不同数据上表现不佳的问题(域偏移问题)5。就像让小学生努力让一个裁判分不清两组相似的物品,如果小学生成功了,就说明它掌握了这些物品的共同特点。

关键结论

通过在四个公共时间序列数据集上的实验,RCD-KD框架在大多数情况下优于其他最先进的基准方法。具体来说:

  • 性能提升:RCD-KD在人类活动识别(HAR)、异构人类活动识别(HHAR)、滚动轴承故障诊断(FD)和睡眠阶段分类(SSC)数据集上均表现出优越的性能。
  • 模型复杂度降低:与教师模型相比,学生模型在参数数量、FLOPs、内存使用和推理时间上都有显著减少,同时保持了相当的性能。
  • 鲁棒性:通过不同的教师-学生(T-S)对和不同的教师生成方法,RCD-KD框架均表现出一致的性能提升。

实验结果

实验结果表明,RCD-KD在多个数据集上的平均Macro F1-score显著高于其他方法。例如,在HAR数据集上,RCD-KD的平均Macro F1-score为94.68%,而在HHAR、FD和SSC数据集上分别为82.37%、92.63%和68.26%。此外,RCD-KD在不同的T-S对和不同的教师生成方法下均表现出优越的性能,证明了其鲁棒性和有效性。

图片

图片

图片

论文公式含义简要解释:

  • 公式 (1) 知识蒸馏损失 ($L_{KD}$):衡量学生模型 ($q_S$) 的预测概率分布与教师模型 ($p_T$) 的预测概率分布之间的差异。目标是让学生模型的输出模仿教师模型软化后的输出,从而迁移教师模型的知识。
  • 公式 (2) 目标样本的最优动作 ($a^*_i$):通过在线 Q 网络 ($Q$),基于学生模型在当前状态下对目标样本的特征表示 ($F_{S_k}(x_{tgt}^i)$) 评估采取不同动作 ($a$) 的价值,并选择价值最大的动作,即决定是否保留该目标样本用于知识蒸馏。
  • 公式 (3) 奖励函数 ($r_k$):为强化学习模块设计,用于评估在当前状态下选择某个目标样本进行知识蒸馏的价值。它由三个部分组成:样本是否被保留 ($R_1$),学生和教师模型在目标样本上的不确定性是否一致 ($R_2$),以及目标样本的知识迁移性 ($R_3$)。通过这些因素的组合,奖励函数引导强化学习智能体学习最优的样本选择策略。
  • 公式 (4) 估计的 Q 值 ($Q_{est}$)Dueling DDQN 的输出,通过结合状态值估计流 ($V(s; \Theta_E, \Theta_V)$) 和优势函数估计流 ($A(s, a; \Theta_E, \Theta_A)$) 来估计在给定状态 $s$ 下采取动作 $a$ 的价值
  • 公式 (5) 目标 Q 值 ($Q_{tar}$):用于训练在线 Q 网络的目标值。它基于当前的奖励 ($r_k$) 和目标 Q 网络 ($Q’$) 对下一状态 ($s_{k+1}$) 中最优动作价值的估计,引入了时间差分学习的思想。
  • 公式 (6) 目标网络更新规则目标 Q 网络的参数 ($\Theta’$) 通过对在线 Q 网络的参数 ($\Theta$) 进行平滑更新得到,有助于稳定强化学习的训练过程。
  • 公式 (7) 强化知识蒸馏损失 ($L_{RKD}$)在标准的知识蒸馏损失的基础上引入了由强化学习模块学习到的权重 ($w_j$),使得只有被认为适合学生模型学习的目标样本才会被用于知识迁移,从而提高蒸馏效率。
  • 公式 (8) 领域混淆损失 ($L_{DC}$):用于对齐学生模型和教师模型在潜在特征空间上的领域表示,从而迁移领域不变的知识。通过最大化领域判别器 ($Φ$) 的混淆程度来实现。
  • 公式 (9) 对抗损失 ($L_{adv}$):在教师模型没有预训练领域判别器的情况下使用,对抗性地训练领域判别器 ($Φ$),使其无法区分特征来自源域教师 ($F_T(x_{src})$) 还是目标域学生 ($F_S(x_{tgt})$),从而学习领域不变的特征表示。
  • 公式 (10) 总损失 ($L$)学生模型的最终优化目标,由领域混淆损失 ($L_{DC}$) 和强化知识蒸馏损失 ($L_{RKD}$) 加权组成,用于同时实现领域自适应和模型压缩。
  • 公式 (11) 贝叶斯后验分布 ($P(\theta|X,Y)$):描述了给定数据 $(X, Y)$ 后模型参数 $\theta$ 的概率分布,是贝叶斯方法估计模型不确定性的基础。
  • 公式 (12) 贝叶斯预测值 ($P(y|x,X,Y)$):通过对所有可能的参数 $\theta$ 及其后验概率下的模型预测进行加权平均,得到对新样本 $x$ 的预测分布,用于估计模型的不确定性.
  • 公式 (13) Dropout 参数分布 ($\theta_l$):表明使用 Dropout 的深度神经网络可以被视为概率深度高斯过程的贝叶斯近似,其中 Dropout 的随机性引入了参数的不确定性.
  • 公式 (14) Monte Carlo Dropout 近似 ($E_{\theta \sim \hat{P}(\theta)}[\Phi(x;\theta)]$ )在测试阶段启用 Dropout,并对同一个样本进行多次预测,然后取平均,以此来近似贝叶斯预测的期望,用于估计模型的不确定性.
  • 公式 (15) 用于不确定性度量的熵 ($H_i$)基于 Monte Carlo Dropout 得到的教师模型或学生模型的多次预测结果的平均概率分布计算熵值。熵越高,模型对该样本的预测越不确定.
  • 公式 (16) NoisyNet 权重重参数化 ($w$)在神经网络的权重中引入参数化的高斯噪声 ($\epsilon_w$),以促进强化学习智能体的探索。
  • 公式 (17) NoisyNet 偏置重参数化 ($b$)类似地,在神经网络的偏置中引入参数化的高斯噪声 ($\epsilon_b$),进一步增强探索能力。

本节部分转载自微信公众号编码技术汇,链接地址:
https://mp.weixin.qq.com/s/_FFwKilU_7YJHGZMOXps9g