[논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (2021)
·
Paper review/2D Classification
나의 정리 논문이 지적한 문제점: NLP에서 사용되는 Transformer가 vision task에 적용되는데 큰 문제점이 두 가지 있다. visual entity의 scale이 큰 variation을 가진다. image resolution이 커지면 computation cost가 매우 커진다. 해결 방안: hierarchical feature를 생성하는 transformer를 사용한다. 계층 구조를 사용하기 때문에 다양한 image size에 대해서 사용을 할 수 있고 shift window를 사용해서 고정된 patch에서만 self-attention이 적용되는 것을 방지한다. shift window도 padding 방식을 효율적으로 적용하였다. positional embedding도 절대 좌표가 아닌..
Weighted Boxes Fusion (WBF) - BBox ensemble 방식 with code
·
Programming/Python
WBF란 object detection task에서 여러 모델로 추론된 결과 bbox들을 ensemble 하는 방법입니다. 서로 다른 network 혹은 같은 network이지만 다른 epoch에서 학습된 model을 사용하여 test data를 추론하게 되면 서로 다른 bbox들을 예측하게 됩니다. 이때 이 예측 값들을 효과적으로 ensemble을 한다면 더 좋은 성능을 낼 수 있게 됩니다. 주로 kaggle과 같은 경진 대회에서 성능을 더 높이기 위한 방법으로 사용이 됩니다. 기존 중복된 bbox나 불필요한 bbox를 제거하는데 NMS(Non Maximum Suppression)과 같은 방법들이 존재하지만 WBF는 조금 다른 방식으로 불필요한 bbox를 제거하게 됩니다. NMS의 경우엔 단순히 더 나..
[논문 리뷰] CenterNet: Keypoint Triplets for Object Detection (2019)
·
Paper review/2D Object detection
나의 정리 논문이 지적한 문제점: a pair of corner를 이용하여 detection을 하면 내부의 visual pattern을 사용하지 않아서 부정확한 BBox를 너무 많이 생성하게 된다. 해결 방안: 한 쌍의 Corner와 Center keypoint 총 세 개의 triplet keypoint를 사용하여 detection하여서 bbox 내부 visual pattern을 사용하여 불필요한 bbox를 제거했다. 주요 module 2가지 Cascade corner pooling 기존 corner는 객체 밖에 존재할 확률이 높아 local feature가 부족할 수 있고 외곽 정보에만 예민하게 반응 할 수 있다. 따라서 boundary와 내부 정보를 모두 사용할 수 있는 module boundary ..
[논문 리뷰] CornerNet: Detecting Objects as Paired Keypoints (2018)
·
Paper review/2D Object detection
나의 정리 논문이 지적한 문제점: Anchor를 사용하는 one-stage 방식이 비효율 적이고 학습에 방해가 되는 요소들이 있다. 해결 방안: Anchor가 아닌 Corner를 이용하여 object detection을 수행하였다. anchor의 문제점 두 가지 많은 양의 anchor box가 필요하고 그에 따라 많은 양의 negative box가 생성되어서 positive와 불균형을 이루게 된다. class imbalance 문제가 발생하게 된다. 많은 hyper-parameter를 사용해야 하고 design을 해야 한다. 를 Corner point detection을 이용하여 해결함 CNN을 통해서 top-left, bottom-right corner를 위한 각각의 (1) heat map을 예측하고 ..
[논문 리뷰] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
·
Paper review/2D Segmentation
나의 정리 Vision Transformer 모델들의 문제점인 single-scale feature map을 사용하여서 작은 물체에 대한 성능이 낮고 large image에 대한 연산량이 많다는 점을 개선한 모델이다. Positional Encoding을 사용하지 않아서 Train/test의 해상도가 다르더라도 성능 저하가 없다. Overlapping Patch Merging을 이용해서 local continuity를 살리고 self attention layer에서 R의 비율로 적게 sampling을 하여서 연산량을 줄였다. multi-level feature map을 사용하여서 hierarchical Transformer Encoder를 사용하여 high-level feature map에서는 coars..
[논문 리뷰] Deformable DETR: Deformable Transformers for End-to-End Object Detection
·
Paper review/2D Object detection
나의 정리 기존의 DETR이 가진 문제점 1. 수렴이 오래 걸린다. (학습시간이 길다) 2. 작은 물체에 대한 성능이 매우 낮다. 이 두 가지에 대한 문제점을 해결한 모델 Deformable Convolution의 아이디어를 가져와 Attention 구조에 적용하였다. attention의 결과 key를 sampling point offset으로 사용하여 k개로 sampling 하여 attention module로도 많은 양의 image feature를 처리하게 해 주어 학습시간을 줄였다. multi-scale의 feature map을 고려하기 때문에 FPN과 비슷한 효과로 작은 물체에 대한 성능을 올릴 수 있었다. 이렇게 DETR의 한계점을 시사하고 그 문제를 해결한 논문이었다. Abstract Hand..
[논문 리뷰] DETR: End-to-End Object Detection with Transformers
·
Paper review/2D Object detection
나의 정리 NLP에서 주로 사용되던 Transformer를 object detection task에 사용하여 간단하고 경쟁력 있는 모델을 만들었다. direct set prediction 문제로 정의하여 bipartite matching을 통하여 유니크한 예측을 한다. bipartite matching은 GT와 prediction의 optimal assignment를 찾아서 loss 값을 줄여나가는 방향으로 학습을 진행한다. Transformer의 endcoder-decoder 구조를 가지고 있고 positional encoding을 통하여 N개의 object queries 만들어내 decoder를 거친 값을 FFN을 거쳐서 최종적으로 각각 독립적으로 class, bbox coordinate 값을 pre..
[논문 리뷰] PointPillars: Fast Encoders for Object Detection from Point Clouds
·
Paper review/3D Object detection
나의 정리 Point Cloud를 이용하여 3D object detection을 진행하는데 point cloud encoding을 hyper parameter 없이 진행을 해 vertical 한 방향으로 encoding을 진행한다. 이러한 encoding 덕분에 3D Convolution이 아닌 2D convolution 연산이 가능해져 빠른 연산이 가능했다. end-to-end 학습이 가능한 3D object detection 방법이다. 3D detection을 하는 방법 중 voxel과는 다른 방식으로 접근하는 논문으로 다른 논문들에서 자주 언급되는 논문이다. 간단히 요약하면 voxel은 x, y, z를 단위로 나누어 grid 형태로 grouping을 했다면 pillar는 x, y에 대한 단위로 나누..