[논문 리뷰] Modality-Agnostic Learning for Radar-Lidar Fusion in Vehicle Detection (CVPR, 2022)

Paper review/3D Object detection

[논문 리뷰] Modality-Agnostic Learning for Radar-Lidar Fusion in Vehicle Detection (CVPR, 2022)

성장형감자 2023. 4. 23. 11:27

728x90

나의 정리

논문이 지적한 문제점
2021 CVPR에 발표된 MVDNet의 경우 sensor fail이 일어나지 않는다는 가정하에 설계된 모델로 sensor fail이 발생하게 되면 큰 성능 하락이 일어나게 됩니다. 따라서 sensor fail 시에도 robust 한 detection을 진행할 수 있는 모델을 제시합니다.
해결 방안
Mean-Teacher 학습 방법을 사용하여 Teacher model은 clear dataset으로 학습을 하고 Student model은 strong augmentation (한 sensor를 fail 시키는 것)을 통해 얻은 missing data로 학습을 진행합니다. 이때 teacher model은 student parameter를 EMA를 통해 update를 하고 student model은 teacher prediction을 사용하여 consistency loss를 통해 back-propagation으로 학습이 진행됩니다. 이를 통해서 missing data가 input으로 들어오더라도 robust 한 detection을 진행할 수 있었습니다.

https://talktato.tistory.com/52

[논문 리뷰] Robust Multimodal Vehicle Detection in Foggy Weather Using Complementary Lidar and Radar Signals (CVPR, 2021)

나의 정리 논문이 지적한 문제점 안개가 낀 날씨에서는 LiDAR가 제대로 동작하지 못해 안전한 자율 주행이 불가능할 수 있습니다. 따라서 fog weather에 대해서 robust 한 detector를 제시합니다. 해결 방

talktato.tistory.com

MVDNet 논문을 보고 읽으시는 것을 권장드립니다.

Abstract

CVPR 2021에 발표된 MVDNet은 sensor fail이 일어나지 않는 다는 가정하에 model이 설계되었습니다. 하지만 실제 자율 주행 환경에서는 하나의 sensor가 fail 되는 경우가 존재하고 이를 고려하지 않으면 안전한 자율 주행이 되지 않습니다.

이 논문에서는 Teacher-Student 방식으로 self training을 진행하여 teacher와 student consistency를 줍니다. 또한 sensor noise augmentation을 진행하여 sensor fail 문제를 해결하고자 하였습니다.

Student model은 기본적인 학습 방법으로 parameter가 update되고 Teacher model의 경우엔 student model parameter를 Exponential Moving Average(EMA)하여 update 하는 방식으로 진행됩니다.

Introduction

Camera는 high resolution이고 rich texture 정보를 가지고 있습니다. 하지만 adverse weather의 경우 image의 성능이 떨어져 weather condition에 예민한 특징을 가지고 있습니다.

이처럼 기존의 fusion 방식을 사용할 때 adverse weather에선 하나의 sensor가 fail 하는 경우가 존재하는데 이때는 성능이 크게 떨어지는 단점을 가지고 있습니다. 따라서 현재 fusion model들은 sensor fail이 일어나는 현실 세계에 적용 하긴 어렵다는 문제를 가지고 있습니다.

이 문제를 해결하기 위해 기존의 solution은 2가지가 존재했습니다.

모델을 분리해 fusion에 사용되는 sensor의 개수 만큼 model을 학습시켜서 개별적인 model을 사용하는 방법입니다.
이 방법은 각 sensor 별로 모델을 학습 시켜야 하므로 비용이 많이 들게 됩니다.
fail이 없는 clear data와 fail이 존재하는 missing data 두 개를 모두 사용해서 fusion model을 학습하는 방법입니다.
하지만 이 방법은 clear data에만 의존하면서 model이 학습하는 경향이 있음을 실험적으로 증명했습니다.

따라서 이 논문에서는 기존의 방법이 아닌 Mean Teacher(MT) framework를 제안하여 Self-training을 통해 robust 한 Vehicle detection network를 제시합니다.

여기서는 Teacher model, Student model 두 가지의 모델이 사용이 되고 두 모델의 구조는 동일한 구조(MVDNet)로 사용 되지만 학습에 사용되는 data나 학습 방법에 차이가 있습니다.

Teacher Network (MVDNet) - clear data를 input으로 사용하여 student 학습을 위해 prediction을 생성합니다. 또한 parameter update는 student parameter의 EMA를 통해 update를 진행합니다.

Student Network (MVDNet) - missing (LiDAR or Radar) data를 input으로 사용하고 teacher model의 prediction을 사용하여 consistency를 맞춰가면서 back-propagation을 통해 학습을 진행합니다.

이러한 학습 방법을 통해서 missing data에 대해 robust해지고 multi-modal feature extraction이 개선된다고 합니다.

Method

Overall architecture

전체적인 모델의 구조는 위와 같습니다. Mean-Teacher 학습 방식을 사용하기 때문에 모델은 teacher, student 두 개의 모델을 사용하고 각 모델은 MVDNet과 동일한 모델을 사용합니다.
→ 이 논문은 모델 구성에 초점을 둔 논문이 아닌 학습 방법에 초점을 둔 논문입니다.

학습 방법은 먼저 student를 학습시켜 학습된 parameter를 teacher model에 복사합니다. 이후로는 Teacher, student에 사용하는 input data를 달리 해 학습을 진행합니다. Teacher model에는 Clear data를 사용하고 Student model에는 strong augmentation을 통해서 missing 상태의 data를 사용해 학습을 진행합니다.

학습을 진행하고 teacher model에서 나온 prediction으로 student가 consistency를 가지도록 학습을 진행합니다. 또한 학습된 student parameter를 exponential moving average (EMA)를 통하여 teacher model을 update 합니다.
→ student model은 일반적인 back-propagation으로 학습하고, inference 시엔 teacher model을 사용합니다.

Mutual Learning between Teacher and Student

Teacher model은 student model의 weight를 EMA를 통해 update를 하는 방식으로 weight update가 진행되고 Student model은 기본적인 back-propagation을 사용하여 학습을 합니다.

이런 방식을 사용하여 Teacher model은 과거 Student model 부터 현재 Student model까지의 ensemble을 하는 효과를 가지게 됩니다. 또한 Teacher model의 prediction을 사용하여 Student model의 back-propagation을 진행하므로 더 정확한 prediction을 위해 guide를 줄 수 있습니다.

위의 식을 사용해서 학습을 진행하여 student model을 학습을 시키고 teacher model로 복사합니다.

Mean-Teacher 학습 방식으로 진행할 때 teacher prediction과 student prediction 사이의 consistency를 가질 수 있게 학습을 진행합니다.
→ classification 단에서만 consistency를 진행합니다.

EMA 식은 위의 식으로 진행을 합니다. $\theta_t, \theta_s$는 teacher, student의 parameter를 의미합니다.

Experiments

ST-MVDNet의 경우 Foggy LiDAR를 사용하더라도 성능 하락의 폭이 크지 않은 것을 볼 수 있습니다.

consistency loss를 사용하는 것이 가장 큰 성능 gain이 있었고 strong augmentation도 성능 gain이 있었습니다.

728x90