6周1.

1 Intro

1.1 CNNs features

Untitled

CNN：
1. feature = 空间滤波器（可视）
2. feature = “我在找什么 pattern” pattern-centric
Transformer：
1. feature = 每个 token 的 embedding（向量）
2. feature = “我如何聚合信息” relation-centric

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, iclr21

Do Vision Transformers See Like Convolutional Neural Networks, nips21