image.png

  1. What?
    1. FIND 是首个针对 Few-shot 多模态异常检测提出的方法
      1. core contribution: 把 CFM [5] (CFM-cvpr24) 扩展到 few-shot 场景
        1. CFM 提升标准问题的质量和速度,但是training = 大量正常样本
        2. 本文关注few-shot: training = very few normal samples
  2. How?
    1. 模态间隙(Modality Gap)的处理方式
      1. CFM 使用独立的骨干网络: DINO ViT 和 Point-MAE,这导致两个模态的特征分布存在显著差异。在样本较少的 Few-shot 场景下,这种分布差异使得模态对齐变得异常困难,从而产生高误报率。
      • FIND 使用共享的骨干网络: 为了消除模态间隙,FIND 将 3D 点云转换为表面法线图(Surface Normal Maps)。法线图具有类似 RGB 的 3 通道结构,使得 2D 和 3D 数据可以输入到**同一个预训练基础模型(DINO)**中。这种策略从根本上桥接了模态间隙,显著降低了误报。

image.png

改进

  1. 更先进的融合与聚合策略
    1. FIND 目前通过一个超参数 α 对跨模态和模态内异常图进行加权平均聚合
    2. 学习化融合: 可以借鉴 M3DM, cvpr23 的𝑫𝒆𝒄𝒊𝒔𝒊𝒐𝒏 𝑳𝒂𝒚𝒆𝒓 𝑭𝒖𝒔𝒊𝒐𝒏,而不是固定的加权比例。
  2. 基础模型(Foundation Model)的升级与适配
    1. 引入类似Self-supervised feature adaptation for 3d industrial anomaly detection, iccv25的**自监督特征适配机制,**在 Few-shot 场景下对预训练特征进行微调,使其更贴合特定工业品类的分布,从而进一步缓解模态间隙
    2. 因为DINO,做了针对surface normal image的训练吗?

References

FIND: Few-Shot Anomaly Inspection with Normal-Only Multi-Modal Data [ICCV2025]

[5] CFM-cvpr24

CFM-cvpr24