
[논문 리뷰] A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP (2021)
·
Paper review/2D Classification
나의 정리 Vision에서 주로 사용되는 구조 Convolution, Transformer, MLP 이 세 가지 구조에 대한 실험을 동등하게 하지 않아 비교가 어려웠다. 이를 동일한 환경에서 실험을 해보고 각 구조마다 특성을 알아보자 Convolution의 장점 local connection을 사용하여서 다른 구조보다 spatial 한 정보를 잘 사용한다. generalization capability가 강하다. Transformer의 장점 Global receptive field를 가지고 dynamic weight를 사용하여서 model capacity가 높다. MLP의 장점 Global receptive field를 가진다. 보완해야 할 점으론 parameter 수가 매우 많아서 overfitting..