Autonomous Driving/End-to-End Autonomous Driving

[E2E 자율주행] (7)-4 Challenges: World-model / Multi-task Learning

구코딩 2024. 12. 15. 10:36
반응형
End-to-End Autonomous Driving과 관련된 다양한 게시물은
Introduction에서 확인하실 수 있습니다.

World-model

world model이 policy model에 대한 명확한 future prediction을 제공하는 현재 model-based policy learning works의 challenges

MBRL

Model-Based Reinforcement Learning.

  • high sample complexity를 겪음.
  • agent를 실제 환경 대신 learned world model과 상호작용하는 방식으로 sample efficiency를 향상시킴.
  • transition dynamics와 reward function으로 구성된 explicit world model 사용.
  • 주행에서 좋음. (CARLA 같은 simulator는 상대적으로 느리기 때문)

highly dynamic environment를 구성하는 것의 어려움.

  • 문제를 단순화하기 위해 transition dynamics를 non-reactive world model과 simple kinematic bicycle model로 분할.
  • world model로 probablilstic sequential latent model로 사용.
  • 학습한 world model의 잠재적 부정확성을 해결하기 위해, uncertainty cost를 추정하기 위한 dropout regularization을 적용하여 policy network 학습.
  • 다양한 world model을 앙상블을 사용하여 uncertainty estimation을 제공.
    - 이를 기반으로 imaginary rollouts를 잘라내고 조절할 수 있음.
  • ISO-Dream: visual dynamics를 controllable/uncontrolable state로 분리하고, 분리된 states로 policy 학습.

자율주행에서 raw image space에서 world model을 학습의 어려움

  • 신호등 같은 작은 디테일이 예측된 이미지에서 쉽게 놓칠 수 있음.
  • 이것에 대처하기 위해 prevailing diffusion technique 사용.
  • MILE: imitation learning 외에도 BEV segmentation space에서 학습하는 Dreamer-style world model을 auxiliary task로 통합
  • SEM2: Dreamer structure를 확장할 뿐 아니라 BEV map input을 사용하고, RL을 training에 사용.
  • DeRL: 두 model의 action이나 state에 대한 self-assessments(자기평가)를 합침으로써 model-free actor-critic framework를 world model에 결합.

자율주행을 위한 world model learning은 RL을 위한 sample complexity를 낮추고 주행에 도움이 되는 world를 이해할 수 있어 떠오르는 유망한 분야임. 주행 환경은 복잡하고 동적이어서, 앞으로의 연구는 어떤 것이 필요한지, 어떻게 world를 효율적으로 modeling할 수 있는지 결정하는 것이 필요함.

 

Multi-Task Learning

separate heads를 통해 shared representation을 기반으로 여러 관련된 작업을 공동으로 수행

장점

  • computational cost 감소
  • 관련 domain knowledge의 공유
  • task 관련성을 활용하여 model의 generation 성능을 향상
  • policy prediction을 위해 환경에 대한 포괄적인 이해가 필요한 end-to-end 자율주행에 적합함.

Challenges

  • auxiliary task와 적절한 loss의 weight의 최적의 조합은 중요한 문제.
  • dense한 prediction을 다루는 일반적인 vision과 달리 end-to-end 자율주행은 sparse한 신호를 다룸.
  • 이러한 sparse한 supervision은 encoder에서 decision-making을 위한 유용한 정보 추출에 어려움 증가.
  • large-scale dataset 구축에 어려움.

Methods

  • image input에서 semantic segmentation과 depth estimation 같은 auxiliary task가 end-to-end에서 자주 사용.
  • semantic segmentation: model이 scene에 대한 높은 수준의 이해에 도움
  • depth estimation: 환경의 3D geometry를 포착하고 객체까지의 거리를 잘 추정할 수 있음
  • 원근감 이미지에 대한 auxiliary task 외에도 3D object detection이 LiDAR 인코더에도 유용.
  • BEV: BEV segmentation과 같은 작업들이 BEV space의 feature를 통합하는 모델에 포함됨.
  • visual affordances: 신호등 상태, 반대 차선까지의 거리 등 포함
반응형