[간단 논문 리뷰] PointNet: Deep Learning on Point Sets for 3D classification and Segmentations (2017)
·
Paper review/3D classification
나의 정리 논문이 지적한 문제점 point cloud를 raw data로써 사용하지 않고 voxelization 등을 하고 사용을 해왔습니다. 이는 불필요하게 data가 많아지게 됩니다. 해결 방안 따라서 point cloud를 곧바로 input data로 사용하는 model을 고안하였습니다. Introduction 이전까지 point cloud를 사용할 땐 voxel이나 mesh로 변환을 시킨 다음 input data로 사용을 하였습니다. 하지만 변환을 시키면 data가 불필요하게 많아지고 natural invariance가 모호해집니다. 따라서 이 논문에서는 point cloud를 곧바로 input data로 사용하는 방법을 소개합니다. point cloud는 두 가지 특성이 있습니다. 첫째 순서가 ..
[논문 리뷰] MLP-Mixer: An all-MLP Architecture for Vision (2021)
·
Paper review/2D Classification
나의 정리 논문이 지적한 문제점: CNN, attention는 충분히 좋은 성능을 내지만 꼭 필수 적이지 않다. MLP만으로도 충분히 좋은 성능을 낼 수 있다. 해결 방안: Token mixing layer, Channel mixing layer 두 가지 MLP layer를 사용하여 모델을 구성했다. 정말 모델 구성과 구현이 간단한 모델이고 이런 연구의 첫 주자인 것 같은데도 좋은 성능을 내서 정말 충격적인 논문이다. Abstract convolution과 attention은 모두 좋은 결과를 내지만 꼭 필수적이진 않다! 는 주장을 하는 논문 MLP-Mixer를 읽어보자. MLP-Mixer는 간단하지만 경쟁력 있는 결과를 내는 모델을 소개한다. 2가지 종류의 layer를 가지고있다. image patch..
[논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (2021)
·
Paper review/2D Classification
나의 정리 논문이 지적한 문제점: NLP에서 사용되는 Transformer가 vision task에 적용되는데 큰 문제점이 두 가지 있다. visual entity의 scale이 큰 variation을 가진다. image resolution이 커지면 computation cost가 매우 커진다. 해결 방안: hierarchical feature를 생성하는 transformer를 사용한다. 계층 구조를 사용하기 때문에 다양한 image size에 대해서 사용을 할 수 있고 shift window를 사용해서 고정된 patch에서만 self-attention이 적용되는 것을 방지한다. shift window도 padding 방식을 효율적으로 적용하였다. positional embedding도 절대 좌표가 아닌..