
[논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (2021)
·
Paper review/2D Classification
나의 정리 논문이 지적한 문제점: NLP에서 사용되는 Transformer가 vision task에 적용되는데 큰 문제점이 두 가지 있다. visual entity의 scale이 큰 variation을 가진다. image resolution이 커지면 computation cost가 매우 커진다. 해결 방안: hierarchical feature를 생성하는 transformer를 사용한다. 계층 구조를 사용하기 때문에 다양한 image size에 대해서 사용을 할 수 있고 shift window를 사용해서 고정된 patch에서만 self-attention이 적용되는 것을 방지한다. shift window도 padding 방식을 효율적으로 적용하였다. positional embedding도 절대 좌표가 아닌..