Paper review/2D Object detection

    [논문 리뷰] FCOS: Fully Convolutional One-Stage Object Detection (2019)

    [논문 리뷰] FCOS: Fully Convolutional One-Stage Object Detection (2019)

    나의 정리 논문이 지적한 문제점: 기존의 anchor 기반의 detector들은 사전 정의된 anchor를 사용하므로 섬세하고 많은 parameter tuning이 있어야 하고 계산량이 많이 들어가게 된다. 또한 Fully convolution이 아니기 때문에 다양하게 활용할 수 없다. 해결 방안: anchor-free 모델을 고안하였다. 이를 통해 계산량을 줄였고 design을 좀 더 간단하게 할 수 있게 하였다. 또한 x, y가 object의 bbox 안에만 있고 class가 같다면 positive sample로 사용하여서 기존의 anchor 기반의 모델들보다 더 많은 양의 positive sample을 사용하는 장점을 통해 성능 개선을 하였다. 두 객체가 겹쳐져 있어서 어떤 객체로 regressio..

    [논문 리뷰] CenterNet: Keypoint Triplets for Object Detection (2019)

    [논문 리뷰] CenterNet: Keypoint Triplets for Object Detection (2019)

    나의 정리 논문이 지적한 문제점: a pair of corner를 이용하여 detection을 하면 내부의 visual pattern을 사용하지 않아서 부정확한 BBox를 너무 많이 생성하게 된다. 해결 방안: 한 쌍의 Corner와 Center keypoint 총 세 개의 triplet keypoint를 사용하여 detection하여서 bbox 내부 visual pattern을 사용하여 불필요한 bbox를 제거했다. 주요 module 2가지 Cascade corner pooling 기존 corner는 객체 밖에 존재할 확률이 높아 local feature가 부족할 수 있고 외곽 정보에만 예민하게 반응 할 수 있다. 따라서 boundary와 내부 정보를 모두 사용할 수 있는 module boundary ..

    [논문 리뷰] CornerNet: Detecting Objects as Paired Keypoints (2018)

    [논문 리뷰] CornerNet: Detecting Objects as Paired Keypoints (2018)

    나의 정리 논문이 지적한 문제점: Anchor를 사용하는 one-stage 방식이 비효율 적이고 학습에 방해가 되는 요소들이 있다. 해결 방안: Anchor가 아닌 Corner를 이용하여 object detection을 수행하였다. anchor의 문제점 두 가지 많은 양의 anchor box가 필요하고 그에 따라 많은 양의 negative box가 생성되어서 positive와 불균형을 이루게 된다. class imbalance 문제가 발생하게 된다. 많은 hyper-parameter를 사용해야 하고 design을 해야 한다. 를 Corner point detection을 이용하여 해결함 CNN을 통해서 top-left, bottom-right corner를 위한 각각의 (1) heat map을 예측하고 ..

    [논문 리뷰] Deformable DETR: Deformable Transformers for End-to-End Object Detection

    [논문 리뷰] Deformable DETR: Deformable Transformers for End-to-End Object Detection

    나의 정리 기존의 DETR이 가진 문제점 1. 수렴이 오래 걸린다. (학습시간이 길다) 2. 작은 물체에 대한 성능이 매우 낮다. 이 두 가지에 대한 문제점을 해결한 모델 Deformable Convolution의 아이디어를 가져와 Attention 구조에 적용하였다. attention의 결과 key를 sampling point offset으로 사용하여 k개로 sampling 하여 attention module로도 많은 양의 image feature를 처리하게 해 주어 학습시간을 줄였다. multi-scale의 feature map을 고려하기 때문에 FPN과 비슷한 효과로 작은 물체에 대한 성능을 올릴 수 있었다. 이렇게 DETR의 한계점을 시사하고 그 문제를 해결한 논문이었다. Abstract Hand..

    [논문 리뷰] DETR: End-to-End Object Detection with Transformers

    [논문 리뷰] DETR: End-to-End Object Detection with Transformers

    나의 정리 NLP에서 주로 사용되던 Transformer를 object detection task에 사용하여 간단하고 경쟁력 있는 모델을 만들었다. direct set prediction 문제로 정의하여 bipartite matching을 통하여 유니크한 예측을 한다. bipartite matching은 GT와 prediction의 optimal assignment를 찾아서 loss 값을 줄여나가는 방향으로 학습을 진행한다. Transformer의 endcoder-decoder 구조를 가지고 있고 positional encoding을 통하여 N개의 object queries 만들어내 decoder를 거친 값을 FFN을 거쳐서 최종적으로 각각 독립적으로 class, bbox coordinate 값을 pre..

    [논문 리뷰] (RetinaNet) Focal Loss for Dense Object Detection

    [논문 리뷰] (RetinaNet) Focal Loss for Dense Object Detection

    나의 정리 RetinaNet은 one-stage로 동작하고 end-to-end 학습이 가능하다. network design은 RPN의 anchor, SSD의 feature pyramid 방식을 사용하여 기존의 network와 거의 비슷하지만 class imbalance 문제를 focal loss를 사용하여 해결했다. Focal loss는 hard exmaple에 초점을 맞춰서 학습을 진행하는 방식이다. 그냥 focal loss 보다 alpha-balance를 사용한 focal loss가 더 성능이 좋았다. Abstract One-stage detector는 YOLO, SSD 등이 있다. 속도는 빠르지만 정확도는 two-stage에 비해 낮다. → 논문에선 왜 그럴까에 대한 분석을 진행 one-stage가..

    [논문 리뷰] SSD: Single Shot MultiBox Detector

    [논문 리뷰] SSD: Single Shot MultiBox Detector

    나의 정리 SSD는 기존 region proposal, classification 2-stage로 하던 object detection방식을 default box라는 개념을 도입하여 1-stage로 진행하였다. multi feature map에 default box를 적용하여 다양한 크기의 bbox를 추출하기 때문에 여러 scale, 종횡비에 대해 검출이 가능하다. 또한 3x3의 conv filter를 사용하여 multi feature map을 만들어 낸다. 1-stage이고 FC layer 대신 Conv layer를 사용하여 매우 빠르다. base network로 VGG16 사용 Abstract single deep Neural Network를 사용해 detection을 한다. ouput을 만드는 공간(..

    [논문 리뷰](YOLO)You Only Look Once:Unified, Real-Time Object Detection

    [논문 리뷰](YOLO)You Only Look Once:Unified, Real-Time Object Detection

    나의 정리 YOLO는 전체 이미지를 입력으로 받아 하나의 Convolution network를 이용하여 bbox의 위치와 점수가 나온다. 또한 이미지 전체를 받아 background error가 덜 발생한다. 이를 통하여 end-to-end 학습이 가능하고 매우 빠른 속도로 test가 가능해 real-time detection이 가능하다. 7x7 grid cell로 나누고 각 grid cell 당 2개의 bbox를 예측한다. 학습 시 보지 못한 새로운 이미지에 대해서도 강건하게 대응이 가능한 network이다. 하지만 아직 한계점도 많아 보이는 network Object가 겹쳐있으면 제대로 예측 불가 작은 바운딩 박스와 큰 바운딩 박스의 가중치가 동일하게 적용된다. real-time이라는 큰 장점이 있지..