단순하게 — 단순하게

나의 정리 기존의 hand-crafted feature가 아닌 feature extraction과 bbox prediction이 one-stage로 합쳐진 end-to-end 학습이 가능한 deep architecture이다. sparse 한 data인 point cloud를 바로 사용하여 sparse 4D tensor로 바꿔 GPU 연산이 효율적으로 하게 했다. point cloud data의 특징인 density imbalance 문제를 해결하였고 non-empty voxel에만 연산을 적용하여 memory, 연산량을 줄였다. 간단 요약하면 3D 상에 퍼져있는 point cloud를 voxel이라는 개념을 통하여 voxel 단위로 grouping, sampling 등을 통하여 voxel-wise fe..

나의 정리 RetinaNet은 one-stage로 동작하고 end-to-end 학습이 가능하다. network design은 RPN의 anchor, SSD의 feature pyramid 방식을 사용하여 기존의 network와 거의 비슷하지만 class imbalance 문제를 focal loss를 사용하여 해결했다. Focal loss는 hard exmaple에 초점을 맞춰서 학습을 진행하는 방식이다. 그냥 focal loss 보다 alpha-balance를 사용한 focal loss가 더 성능이 좋았다. Abstract One-stage detector는 YOLO, SSD 등이 있다. 속도는 빠르지만 정확도는 two-stage에 비해 낮다. → 논문에선 왜 그럴까에 대한 분석을 진행 one-stage가..

나의 정리 SSD는 기존 region proposal, classification 2-stage로 하던 object detection방식을 default box라는 개념을 도입하여 1-stage로 진행하였다. multi feature map에 default box를 적용하여 다양한 크기의 bbox를 추출하기 때문에 여러 scale, 종횡비에 대해 검출이 가능하다. 또한 3x3의 conv filter를 사용하여 multi feature map을 만들어 낸다. 1-stage이고 FC layer 대신 Conv layer를 사용하여 매우 빠르다. base network로 VGG16 사용 Abstract single deep Neural Network를 사용해 detection을 한다. ouput을 만드는 공간(..

나의 정리 YOLO는 전체 이미지를 입력으로 받아 하나의 Convolution network를 이용하여 bbox의 위치와 점수가 나온다. 또한 이미지 전체를 받아 background error가 덜 발생한다. 이를 통하여 end-to-end 학습이 가능하고 매우 빠른 속도로 test가 가능해 real-time detection이 가능하다. 7x7 grid cell로 나누고 각 grid cell 당 2개의 bbox를 예측한다. 학습 시 보지 못한 새로운 이미지에 대해서도 강건하게 대응이 가능한 network이다. 하지만 아직 한계점도 많아 보이는 network Object가 겹쳐있으면 제대로 예측 불가 작은 바운딩 박스와 큰 바운딩 박스의 가중치가 동일하게 적용된다. real-time이라는 큰 장점이 있지..

나의 정리 Faster R-CNN은 region proposal을 gpu를 사용하여 진행하기 위해 RPN을 사용하였다. RPN로 region proposal을 구하고 Fast R-CNN으로 detector를 진행해 두 개의 module로 한 개의 network를 만들었다. RPN은 anchor box의 개념을 도입하여 러닝 타임을 줄이고 image, filter pyramid와 같은 성능을 냈다. feature map에서 3x3 window sliding → 1x1 object score, bbox regression 각자 계산 RPN은 객체의 존재 여부 분류, Fast R-CNN 은 배경을 포함한 classification 진행 RPN과 Fast R-CNN은 같은 conv layer를 공유하는데 이는 ..

나의 정리 FC layer에 input size를 맞춰주기 위해 warp을 통해 강제적으로 맞춰주며 데이터 변형, 손실이 생겼는데 ROI pooling으로 input size에 무관하게 input으로 사용할 수 있게 되었다. backpropagation이 가능해져 모든 네트워크의 가중치가 업데이트될 수 있다. R-CNN은 bbox regressor, linear SVM을 각자 학습하는 multi-stage였지만 Fast R-CNN은 multi-task loss의 사용으로 single stage, end-to-end가 가능해졌다. 또한 fast R-CNN에서는 SVM 말고 softmax를 사용한다. feature map을 계산한 뒤 그 위에 object proposal을 projection 해서 사용하기 ..

나의 정리 간단하고 확장이 가능한 Object detection 방법을 소개했다. Selective search를 이용하여 region proposal을 구하고 해당 영역을 CNN에 통과시켜 feature vector를 추출한 뒤 FC layer를 거친 뒤 linear SVM을 거쳐 classify해준다. bounding box regression을 통하여 bounding box의 위치에 대한 평가를 하고 loss를 구해 GT값에 가깝게 만들어주는 d에 대해 학습하여 정확한 위치로 만들어 준다. data가 부족할 때 supervised pre-training을 사용하고 특정 domain에 대해서 fine tuning을 진행한다. bbox regressor, linear SVM 결국 두 개를 따로 학습해야..

나의 정리 residual learning을 통해 기존의 H(x)를 학습하는 것이 아닌 F(x)를 학습하여 optimize 하기가 더 쉽고 깊이가 늘어나도 높은 정확도를 얻을 수 있었다. optimize가 하기 쉬운이유는 F(x) = H(x) - x의 식이 되는데 결국 F(x)가 최소 값 0이 되는 곳을 찾는 것이라 H(x) = x로 목푯 값이 정해져 있어서 쉬워진다. 그저 더하는 연산이 추가된 것으로 파라미터 수가 변하지 않고 계산 복잡도 또한 낮다. Bottle neck → 차원수를 변경하여 parameter를 줄여 연산량을 줄이는 방식 projection connection으로 차원수가 달라지면 차원수를 맞춰준다. (1x1 conv) Abstract 네트워크가 깊어지면 깊어질수록 Train을 하는데..

티스토리툴바