Paper review/3D Object detection

    [논문 리뷰] PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images (Arxiv, 2022)

    [논문 리뷰] PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images (Arxiv, 2022)

    나의 정리 논문이 지적한 문제점 기존의 PETR에서 생성하던 3D Position Embedding은 data-independent 합니다. 또한 시간 축에 대한 정보도 사용하고 있지 않습니다. 보다 정확한 3D object detection을 위해서 Temporal modeling과 3D position Embedding을 구하는 방식을 개선합니다. 해결 방안 3D PE를 생성할 때 2D image feature로 guidance를 주어 생성합니다. 또한 Temporal modeling을 위해서 이전 frame의 3D coordinate을 현재 frame의 3D coordinate으로 맞춰주기 위해 pose transformation을 통해 temporal alignment를 진행합니다. 또한 mult..

    [논문 리뷰] PETR: Position Embedding Transformation for Multi-View 3D Object Detection (ECCV, 2022)

    [논문 리뷰] PETR: Position Embedding Transformation for Multi-View 3D Object Detection (ECCV, 2022)

    나의 정리 논문이 지적한 문제점 기존 transformer에서 사용되던 Position Embedding은 image의 2D space 상에 대한 position information을 encoding 하는 것입니다. 하지만 우린 3D space 상의 feature를 생성하기 때문에 2D position information을 feature에 encoding하는 것은 큰 도움이 되지 못합니다. 또한 기존의 DETR3D는 object query에 해당하는 reference point position을 예측하고 해당 위치의 2D feature를 sampling 하는데 예측한 reference point position이 정확하지 않을 수 있습니다. 해결 방안 PETR은 2D feature map에 3D sp..

    [논문 리뷰] PolarFormer: Multi-camera 3D Object Detection with Polar Transformer (AAAI, 2023)

    [논문 리뷰] PolarFormer: Multi-camera 3D Object Detection with Polar Transformer (AAAI, 2023)

    나의 정리 논문이 지적한 문제점 기존의 Cartesian coordinate의 BEV 상에서 object detection은 ego car 기준의 환경을 인식하는데 자연스럽지 못한 방식입니다. 또한 Polar coordinate에서 convolution은 input structure shape이 맞지 않아 적용이 어렵습니다. 해결 방안 Polar coordinate의 BEV feature를 생성하고 해당 feature를 Transformer를 사용하여 detection을 진행하는 모델을 제안합니다. Abstract 지금까지 3D object detection을 진행할 때 주로 Cartesian coordinate $(x, y)$ 상에서 진행이 되어 왔습니다. 하지만 ego car를 기준으로 Cartesi..

    [논문 리뷰] TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers (CVPR, 2022)

    [논문 리뷰] TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers (CVPR, 2022)

    나의 정리 논문이 지적한 문제점 3D object detection을 위한 많은 sensor fusion (LiDAR + Camera) 방식들이 존재하지만 모두 image의 condition이나 sensor misalignment에 취약한 문제가 있었습니다. 이러한 문제가 생겼을 때도 더 robust 한 3D object detection을 위한 모델을 제안하였습니다. 해결 방안 기존의 sensor fusion의 문제는 hard-association에서 오는 문제로 cross-attention을 통한 soft-association을 사용하여 문제를 해결 하였습니다. 또한 query를 initialize 할 때 image feature로 guidance를 주어 적은 decoder layer를 사용하여도 o..

    [논문 리뷰] Modality-Agnostic Learning for Radar-Lidar Fusion in Vehicle Detection (CVPR, 2022)

    [논문 리뷰] Modality-Agnostic Learning for Radar-Lidar Fusion in Vehicle Detection (CVPR, 2022)

    나의 정리 논문이 지적한 문제점 2021 CVPR에 발표된 MVDNet의 경우 sensor fail이 일어나지 않는다는 가정하에 설계된 모델로 sensor fail이 발생하게 되면 큰 성능 하락이 일어나게 됩니다. 따라서 sensor fail 시에도 robust 한 detection을 진행할 수 있는 모델을 제시합니다. 해결 방안 Mean-Teacher 학습 방법을 사용하여 Teacher model은 clear dataset으로 학습을 하고 Student model은 strong augmentation (한 sensor를 fail 시키는 것)을 통해 얻은 missing data로 학습을 진행합니다. 이때 teacher model은 student parameter를 EMA를 통해 update를 하고 stu..

    [논문 리뷰] Robust Multimodal Vehicle Detection in Foggy Weather Using Complementary Lidar and Radar Signals (CVPR, 2021)

    [논문 리뷰] Robust Multimodal Vehicle Detection in Foggy Weather Using Complementary Lidar and Radar Signals (CVPR, 2021)

    나의 정리 논문이 지적한 문제점 안개가 낀 날씨에서는 LiDAR가 제대로 동작하지 못해 안전한 자율 주행이 불가능할 수 있습니다. 따라서 fog weather에 대해서 robust 한 detector를 제시합니다. 해결 방안 LiDAR와 Radar를 5 frame으로 input을 받아 각각 feature extraction을 진행하고 proposal을 구합니다. 구한 뒤 proposal을 NMS를 사용해 합쳐준 뒤 해당 proposal을 사용해 RoI Pooling으로 feature vector를 생성합니다. 생성된 feature vector를 sensor fusion을 해주고 temporal fusion을 해준 뒤 최종적으로 bbox regression을 진행합니다. 이렇게 late fusion det..

    [논문 리뷰] CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for Robust 3D Object Detection (ECCV, 2022)

    [논문 리뷰] CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for Robust 3D Object Detection (ECCV, 2022)

    나의 정리 논문이 지적한 문제점 adverse weather에 대한 robust 3D object detection을 위해선 환경의 영향을 덜 받는 radar sensor의 사용이 필요하고 image와 효과적인 fusion 방식을 통해서 좋은 성능을 내는 것이 필요합니다. 해결 방안 joint 3D-space로 camera feature와 radar feature를 projection 시켜 하나의 major sensor를 두지 않아 하나의 sensor가 fail 하더라도 robust하게 3D object detection을 가능하게 하였습니다. camera의 depth estimation 성능을 높이기 위해서 radar feature를 cross attention을 사용해 depth를 refine 해줍니..

    [논문 리뷰] RangeDet: In defense of range view for lidar-based 3d object detection (2021)

    [논문 리뷰] RangeDet: In defense of range view for lidar-based 3d object detection (2021)

    나의 정리 논문이 지적한 문제점 Point cloud를 Bird’s Eyes View, Point View, Range View로 detection이 가능하지만 BEV 같은 경우 quantization error를 가지고 있고 Point View는 neighbor point를 찾기 위해 많은 시간이 걸려 large scale point cloud에선 cost가 너무 많이 든다는 단점이 있습니다. 따라서 compact 하고 quantization error가 없는 Range View로 detection을 진행합니다. 또한 기존의 Range View based detector의 경우 RV의 특성에 대한 고려를 하지 않아 성능 차이가 많이 났습니다. 해결 방안 Range View 특성을 고려한 model을 제..