Autonomous Driving/End-to-End Autonomous Driving

[E2E 자율주행] (7)-5 Challenges: Policy Distillation

구코딩 2024. 12. 16. 23:46
반응형
End-to-End Autonomous Driving과 관련된 다양한 게시물은
Introduction에서 확인하실 수 있습니다.

 

Policy Distillation

Imitation learning(또는 세부 항목인 behavior cloning)은 expert의 행동을 모방하는 지도학습이므로 일반적으로 Teacher-Student paradigm을 따름.

이와 관련한 두 main challenges:

  1. Teacher(expert)가 완벽한 운전자가 아니지만 주변 agent와 map의 ground-truth에 접근 가능
  2. Student는 오직 sensor input으로 기록된 output에 의해 지도되므로 perceptual feature를 얻고 policy를 처음부터 학습(learning from scratch)해야 함.

Expert

  • privileged agent가 RL을 통해 훈련되는 경우도 있으므로 위 사진에서 점선으로 표시.

 

Privileged Agent

  • 환경 state에 접근하여 행동하는 방법 학습
  • previleged ground-truth 정보에 접근하는 robust policy 학습.
  • 이를 위한 input으로 더 compact한 BEV representation은 원래 expert보다 강력한 generalization 능력과 supervision 제공.

 

Sensorimoter Agent

  • output stage에서 feature distillation, output imitation을 통해 privileged agent 모방
  • planning 결과 supervising 외에도 feature level에서 knowledge 추출.

 

 

  • 분리된 패러다임(decoupled paradigm)은 teacher의 knowledge와 student의 training 효율성 높임.
    • 여전히 비효율적
    • Ex) privileged agent: 신호등(작고 찾기 어려움)의 ground-truth에 접근할 수 있음.
    • visuomoter agent: privileged agent에 비해 큰 성능 차이가 있음.
    • → student에게 casual confusion을 야기할 수 있음.
  • 이 격차(previleged agent - visuomoter agent)를 최소화하는 것이 앞으로의 연구 방향.

 

관련된 모델

  • FM-Net: feature training을 가이드하기 위해 segmentation과 optical flow model을 auxiliary teacher로 사용.
  • SAM: teacher/student networks 간에 L2 feature loss 추가
  • CaT: BEV에서 feature 정렬.
  • WoR: model-based action-value function을 학습하고 이를 사용하여 visuomoter policy를 지도함.
  • Roach: 더 강한 privileged exeprt를 RL로 학습하고, BC의 upper bound를 제거함.
    - action distribution, values/rewards, latent feature 등의 여러 distillation 대상을 포함함.
  • TCP: 강력한 RL expert 활용해 단일 카메라를 input으로 사용하여 CARLA에서 sota 달성.
  • DriveAdapter: perception-only student와 feature alignment 목표를 가진 adapter 학습.
반응형