
[논문 리뷰] BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers (2022)
·
Paper review/3D Object detection
나의 정리논문이 지적한 문제점: 2D image를 이용해 3D object detection을 하는데 여러 문제점들이 존재합니다. 움직이는 물체의 속도나 가려짐의 정도가 심한 물체들을 검출해내는데 문제가 발생합니다. 또한 한 가지 camera view가 아닌 multi-camera view를 사용하는 경우엔 input이 커지게 되어 계산량이 복잡해질 수 있다는 문제가 있습니다. 이런 여러 가지 문제를 해결하고자 자율 주행 perception task를 수행하기 위해 BEV feature를 2D image로 생성하여 해결하는 BEVFormer 논문입니다.해결 방안: 먼저 static image가 아닌 video를 입력으로 받아서 temporal self-attention을 진행합니다. 이 TSA를 통해서 ..