
- What?
- FIND 是首个针对 Few-shot 多模态异常检测提出的方法
- core contribution: 把 CFM [5] (CFM-cvpr24) 扩展到 few-shot 场景
- CFM 提升标准问题的质量和速度,但是training = 大量正常样本
- 本文关注few-shot: training = very few normal samples
- How?
- 模态间隙(Modality Gap)的处理方式
- CFM 使用独立的骨干网络: DINO ViT 和 Point-MAE,这导致两个模态的特征分布存在显著差异。在样本较少的 Few-shot 场景下,这种分布差异使得模态对齐变得异常困难,从而产生高误报率。
- FIND 使用共享的骨干网络: 为了消除模态间隙,FIND 将 3D 点云转换为表面法线图(Surface Normal Maps)。法线图具有类似 RGB 的 3 通道结构,使得 2D 和 3D 数据可以输入到**同一个预训练基础模型(DINO)**中。这种策略从根本上桥接了模态间隙,显著降低了误报。
- 定位精度与细节捕捉
- CFM 定位相对粗糙: 由于 CFM 依赖于高层语义特征的映射,其异常定位往往比较模糊,难以检测微小的异常。
- FIND 支持细粒度定位: FIND 的模态内学生通过多层反向蒸馏技术,将特征从深层逐步还原到原始输入分辨率(像素级)。这使得 FIND 能够捕捉细微的纹理或几何缺陷,生成的异常图更加锐利和精准
- 用featUp替代多层反向蒸馏技术,减少学习参数=》1-shot & multiple classes?
- FeatUp: A Model-Agnostic Framework for Features at Any Resolution, ICLR24

改进
- 更先进的融合与聚合策略
- FIND 目前通过一个超参数 α 对跨模态和模态内异常图进行加权平均聚合
- 学习化融合: 可以借鉴 M3DM, cvpr23 的𝑫𝒆𝒄𝒊𝒔𝒊𝒐𝒏 𝑳𝒂𝒚𝒆𝒓 𝑭𝒖𝒔𝒊𝒐𝒏,而不是固定的加权比例。
- 基础模型(Foundation Model)的升级与适配
- 引入类似Self-supervised feature adaptation for 3d industrial anomaly detection, iccv25的**自监督特征适配机制,**在 Few-shot 场景下对预训练特征进行微调,使其更贴合特定工业品类的分布,从而进一步缓解模态间隙
- 因为DINO,做了针对surface normal image的训练吗?
References
FIND: Few-Shot Anomaly Inspection with Normal-Only Multi-Modal Data [ICCV2025]
[5] CFM-cvpr24
CFM-cvpr24