Paper review/2D Classification

    [논문 리뷰] A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP (2021)

    [논문 리뷰] A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP (2021)

    나의 정리 Vision에서 주로 사용되는 구조 Convolution, Transformer, MLP 이 세 가지 구조에 대한 실험을 동등하게 하지 않아 비교가 어려웠다. 이를 동일한 환경에서 실험을 해보고 각 구조마다 특성을 알아보자 Convolution의 장점 local connection을 사용하여서 다른 구조보다 spatial 한 정보를 잘 사용한다. generalization capability가 강하다. Transformer의 장점 Global receptive field를 가지고 dynamic weight를 사용하여서 model capacity가 높다. MLP의 장점 Global receptive field를 가진다. 보완해야 할 점으론 parameter 수가 매우 많아서 overfitting..

    [논문 리뷰] MLP-Mixer: An all-MLP Architecture for Vision (2021)

    [논문 리뷰] MLP-Mixer: An all-MLP Architecture for Vision (2021)

    나의 정리 논문이 지적한 문제점: CNN, attention는 충분히 좋은 성능을 내지만 꼭 필수 적이지 않다. MLP만으로도 충분히 좋은 성능을 낼 수 있다. 해결 방안: Token mixing layer, Channel mixing layer 두 가지 MLP layer를 사용하여 모델을 구성했다. 정말 모델 구성과 구현이 간단한 모델이고 이런 연구의 첫 주자인 것 같은데도 좋은 성능을 내서 정말 충격적인 논문이다. Abstract convolution과 attention은 모두 좋은 결과를 내지만 꼭 필수적이진 않다! 는 주장을 하는 논문 MLP-Mixer를 읽어보자. MLP-Mixer는 간단하지만 경쟁력 있는 결과를 내는 모델을 소개한다. 2가지 종류의 layer를 가지고있다. image patch..

    [논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (2021)

    [논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (2021)

    나의 정리 논문이 지적한 문제점: NLP에서 사용되는 Transformer가 vision task에 적용되는데 큰 문제점이 두 가지 있다. visual entity의 scale이 큰 variation을 가진다. image resolution이 커지면 computation cost가 매우 커진다. 해결 방안: hierarchical feature를 생성하는 transformer를 사용한다. 계층 구조를 사용하기 때문에 다양한 image size에 대해서 사용을 할 수 있고 shift window를 사용해서 고정된 patch에서만 self-attention이 적용되는 것을 방지한다. shift window도 padding 방식을 효율적으로 적용하였다. positional embedding도 절대 좌표가 아닌..

    [논문 리뷰] ResNet: Deep Residual Learning for Image Recognition

    [논문 리뷰] ResNet: Deep Residual Learning for Image Recognition

    나의 정리 residual learning을 통해 기존의 H(x)를 학습하는 것이 아닌 F(x)를 학습하여 optimize 하기가 더 쉽고 깊이가 늘어나도 높은 정확도를 얻을 수 있었다. optimize가 하기 쉬운이유는 F(x) = H(x) - x의 식이 되는데 결국 F(x)가 최소 값 0이 되는 곳을 찾는 것이라 H(x) = x로 목푯 값이 정해져 있어서 쉬워진다. 그저 더하는 연산이 추가된 것으로 파라미터 수가 변하지 않고 계산 복잡도 또한 낮다. Bottle neck → 차원수를 변경하여 parameter를 줄여 연산량을 줄이는 방식 projection connection으로 차원수가 달라지면 차원수를 맞춰준다. (1x1 conv) Abstract 네트워크가 깊어지면 깊어질수록 Train을 하는데..

    [논문 리뷰] VGGNet: VERY DEEP CONVOLUTIONALNETWORKSFORLARGE-SCALEIMAGERECOGNITION

    [논문 리뷰] VGGNet: VERY DEEP CONVOLUTIONALNETWORKSFORLARGE-SCALEIMAGERECOGNITION

    나의 정리 네트워크의 깊이가 모델의 좋은 성능을 보이는데 중요한 역할을 한다는 것을 보여줌 3x3, stride 1, zero padding 1의 filter를 3겹을 사용하여 7x7 필터와 같은 receptive field를 가진다. max-pooling도 사용. 작은 사이즈 필터를 여러 번 나눠 적용하면 conv layer를 거칠 때마다 ReLU도 더 많이 통과하게 되어 non-linear 한 의사 결정을 더 잘하게 된다. FC layer가 있어서 파라미터가 매우 많아 연산량이 매우 크다는 단점이 있다. 서론 large-scale image recognition에서 ConvNets의 깊이가 정확도에 끼치는 영향에 대한 논문 3x3 매우 작은 필터를 사용하여 깊이가 깊은 네트워크를 평가한다. 소개 Co..