[논문 리뷰] BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers (2022)
·
Paper review/3D Object detection
나의 정리논문이 지적한 문제점: 2D image를 이용해 3D object detection을 하는데 여러 문제점들이 존재합니다. 움직이는 물체의 속도나 가려짐의 정도가 심한 물체들을 검출해내는데 문제가 발생합니다. 또한 한 가지 camera view가 아닌 multi-camera view를 사용하는 경우엔 input이 커지게 되어 계산량이 복잡해질 수 있다는 문제가 있습니다. 이런 여러 가지 문제를 해결하고자 자율 주행 perception task를 수행하기 위해 BEV feature를 2D image로 생성하여 해결하는 BEVFormer 논문입니다.해결 방안: 먼저 static image가 아닌 video를 입력으로 받아서 temporal self-attention을 진행합니다. 이 TSA를 통해서 ..
[논문 리뷰] FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection (2021)
·
Paper review/3D Object detection
나의 정리 논문이 지적한 문제점: Fully convolution single-stage 구조를 가진 FCOS는 2D object detection을 진행하는데 이를 통하여 더 어려운 문제인 3D object detection을 진행하고자 한다. 해결 방안: 기존 FCOS에서 사용하던 regression target을 3D target으로 재구성하고 추가적인 disentangled head를 통해 얻은 component를 이용해서 3D bbox를 regression 한다. 또한 기존의 center-ness를 3D-center를 기반으로 gaussian distribution을 추가한 center-ness를 사용하여서 2D detector의 구조로 3D object detection을 진행할 수 있게 한다..
[논문 리뷰] FCOS: Fully Convolutional One-Stage Object Detection (2019)
·
Paper review/2D Object detection
나의 정리 논문이 지적한 문제점: 기존의 anchor 기반의 detector들은 사전 정의된 anchor를 사용하므로 섬세하고 많은 parameter tuning이 있어야 하고 계산량이 많이 들어가게 된다. 또한 Fully convolution이 아니기 때문에 다양하게 활용할 수 없다. 해결 방안: anchor-free 모델을 고안하였다. 이를 통해 계산량을 줄였고 design을 좀 더 간단하게 할 수 있게 하였다. 또한 x, y가 object의 bbox 안에만 있고 class가 같다면 positive sample로 사용하여서 기존의 anchor 기반의 모델들보다 더 많은 양의 positive sample을 사용하는 장점을 통해 성능 개선을 하였다. 두 객체가 겹쳐져 있어서 어떤 객체로 regressio..
[논문 리뷰] M3D-RPN: Monocular 3D Region Proposal Network for Object Detection (2019)
·
Paper review/3D Object detection
나의 정리 논문이 지적한 문제점: 비교적 cost가 높은 LiDAR, Stereo image가 아닌 monocular image 만으로는 성능이 많이 떨어진다. monocular image 만으로도 좋은 성능을 내는 3D Object detection network를 만들고자 했다. 해결 방안: 다른 sub-network를 사용하지 않고 RPN만을 사용해서 3D object detection을 진행한다. 2D, 3D anchor를 같이 정의해서 2D scale과 3D depth의 상관관계를 prior로 활용하여 proposal을 생성한다. 더 나은 3D bbox 예측을 위해 depth-aware convolution을 이용하여 spatially-aware feature를 생성한다. Abstract 3D ..
[논문 리뷰] A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP (2021)
·
Paper review/2D Classification
나의 정리 Vision에서 주로 사용되는 구조 Convolution, Transformer, MLP 이 세 가지 구조에 대한 실험을 동등하게 하지 않아 비교가 어려웠다. 이를 동일한 환경에서 실험을 해보고 각 구조마다 특성을 알아보자 Convolution의 장점 local connection을 사용하여서 다른 구조보다 spatial 한 정보를 잘 사용한다. generalization capability가 강하다. Transformer의 장점 Global receptive field를 가지고 dynamic weight를 사용하여서 model capacity가 높다. MLP의 장점 Global receptive field를 가진다. 보완해야 할 점으론 parameter 수가 매우 많아서 overfitting..
[논문 리뷰] MLP-Mixer: An all-MLP Architecture for Vision (2021)
·
Paper review/2D Classification
나의 정리 논문이 지적한 문제점: CNN, attention는 충분히 좋은 성능을 내지만 꼭 필수 적이지 않다. MLP만으로도 충분히 좋은 성능을 낼 수 있다. 해결 방안: Token mixing layer, Channel mixing layer 두 가지 MLP layer를 사용하여 모델을 구성했다. 정말 모델 구성과 구현이 간단한 모델이고 이런 연구의 첫 주자인 것 같은데도 좋은 성능을 내서 정말 충격적인 논문이다. Abstract convolution과 attention은 모두 좋은 결과를 내지만 꼭 필수적이진 않다! 는 주장을 하는 논문 MLP-Mixer를 읽어보자. MLP-Mixer는 간단하지만 경쟁력 있는 결과를 내는 모델을 소개한다. 2가지 종류의 layer를 가지고있다. image patch..
[논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (2021)
·
Paper review/2D Classification
나의 정리 논문이 지적한 문제점: NLP에서 사용되는 Transformer가 vision task에 적용되는데 큰 문제점이 두 가지 있다. visual entity의 scale이 큰 variation을 가진다. image resolution이 커지면 computation cost가 매우 커진다. 해결 방안: hierarchical feature를 생성하는 transformer를 사용한다. 계층 구조를 사용하기 때문에 다양한 image size에 대해서 사용을 할 수 있고 shift window를 사용해서 고정된 patch에서만 self-attention이 적용되는 것을 방지한다. shift window도 padding 방식을 효율적으로 적용하였다. positional embedding도 절대 좌표가 아닌..
[논문 리뷰] CenterNet: Keypoint Triplets for Object Detection (2019)
·
Paper review/2D Object detection
나의 정리 논문이 지적한 문제점: a pair of corner를 이용하여 detection을 하면 내부의 visual pattern을 사용하지 않아서 부정확한 BBox를 너무 많이 생성하게 된다. 해결 방안: 한 쌍의 Corner와 Center keypoint 총 세 개의 triplet keypoint를 사용하여 detection하여서 bbox 내부 visual pattern을 사용하여 불필요한 bbox를 제거했다. 주요 module 2가지 Cascade corner pooling 기존 corner는 객체 밖에 존재할 확률이 높아 local feature가 부족할 수 있고 외곽 정보에만 예민하게 반응 할 수 있다. 따라서 boundary와 내부 정보를 모두 사용할 수 있는 module boundary ..