Learning in the Frequency Domain, cvpr20

image.png

  1. 低存储:CB represents the required communication bandwidth between CPU and GPU/accelerator
  2. ImageNet classification with the same input size, the proposed method achieves 1.60% and 0.63% top-1 accuracy improvements on ResNet-50 and MobileNetV2, respectively.
  3. Even with half input size, the proposed method still improves the top-1 accuracy on ResNet-50 by 1.42%.
  4. In addition, we observe a 0.8% average precision improvement on Mask R-CNN for instance segmentation on the COCO dataset.

image.png

  1. 用的jpeg图像压缩:分8x8patch (图示中为2x2)
    1. RGB input image is H×W ×C ⇒ feature maps in frequency domain: H/8×W/8×64C, which maintains the same input data size.
  2. channel selection in frequency domain 替代量化,结论是一样的,即低频重要
    1. 在deep network中完成的,上图并没有反应这个细节,只是概念示意图。
    2. DCT reshape后的feature map是network的input。

为什么“频域思想”在这两年依然是顶会的热门突破口?

  1. Diffusion 模型的算力破局点:现在的研究发现,扩散模型的降噪过程在本质上是一个频域上由低频到高频的过渡过程(前期生成大体结构/低频,后期生成细节/高频)。利用频域截断或级联,可以大幅降低超高分辨率图像生成的计算冗余。
  2. AIGC 与 Deepfake 的“照妖镜”:虽然 Midjourney 和 Sora 生成的内容在空域(肉眼)上已经真假难辨,但在频域(尤其是相位谱和高频统计特征上)依然存在不可避免的生成器伪影(Artifacts)。频域偏差(Frequency Deviation)依然是 2025 年对抗 AI 伪造最鲁棒的特征。
  3. Mamba / ViT 的全局感受野平替:基于 FFT(快速傅里叶变换)的 Token 混合,能够将空域中需要二次方计算复杂度的全局注意力机制,转化为频域中的高效线性计算,极大提升了模型在密集预测任务上的效率。
  4. 3DGS 的抗锯齿与细节分层(LOD):原生的 3D 高斯泼溅对所有频率一视同仁,极易产生锯齿和冗余。2025年的最新研究通过引入频域正则化和拉普拉斯金字塔频带,让 3DGS 具备了完美的频域分层渲染能力。

References

  1. Frequency-Domain Dynamic Pruning for Convolutional Neural Networks, nips18
  2. Faster neural networks straight from jpeg. In NIPS, 2018.
  3. Feature line extraction from unorganized noisy point clouds using truncated Fourier series, 2013, visual computer. 【应该把这个做到deep,用abc库?】