Autonomous Driving/End-to-End Autonomous Driving

[E2E 자율주행] (4) 발전과정

구코딩 2024. 12. 5. 15:30
반응형
End-to-End Autonomous Driving과 관련된 다양한 게시물은
Introduction에서 확인하실 수 있습니다.

 

E2E 자율주행의 발전 과정 및 연구 동향

ALVINN (1988)

  • 카메라와 레이저 거리 측정 데이터를 기반으로 한 초기 신경망 모델.
  • 이후 NVIDIA는 GPU 컴퓨팅 시대에 맞춰 해당 개념을 부활시켜 엔드 투 엔드 CNN 시스템을 개발했습니다.

E2E 기반 자율주행 시스템 연구 진행 (~2018)

  • Imitation LearningReinforcement Learning의 발전으로 자율주행 기술이 크게 향상.
  • Imitation Learning에서는 (sensor-control) direct policy learning으로 자율주행 모델을 학습함.
  • 상대적으로 모델 구현이 간단하며, Bbox 및 trajectory 등 annotation이 필요없음
  • LBC(Learning by Cheating)와 같은 연구는 정책 증류(policy distillation)를 통해 closed-loop 성능을 대폭 개선함.

문제점

  1. Generalization: Train/Test 간 distribution 차이로 인해 catastrophic failure 발생- 일반화 어려움
    - agent가 이전에 관찰되지 않은 새로운 상태에 진입할 수 있음.
  2. Interpretability: 모델 도출 결과의 근거를 사용자에게 설명하기 어려움
    - eXplainable AI 등의 방법을 적용하여 visual/textual explanation 방법이 제안됨
    - Interpretable intermediate representation (BEV feature 등)을 활용
  3. Multi-modality 데이터를 수집한 전문가 별로 개별의 policy를 가지고 있으며, 이는 모델 출력의 multi-modality 적용이 필요
    - GMM (Gaussian Mixture Models) 등 활용

ChauffeurNet (Waymo Research, 2018)

대용량의 데이터 및 Imitation Learning 기법을 활용한 mid-to-mid 모델 제시

  • 대용량 데이터: Waymo에서 human expert driver로부터 1년 간 수집한 데이터를 바탕으로 모델 학습
  • Imitation Learning: Noise injection 등을 활용하여 Train/Test 간 distribution 차이를 저감함
  • Mid-to-mid Learning: (LiDAR, Camera, Radar 등) Perception 모듈에서 추출한 객체 정보 및 Map 정보를 BEV 상에 2D 이미지로 표현하고, 이를 바탕으로 차량의 future trajectory를 예측
  • 물체를 일단 찾고 차선 정보 속도 트래킹 에 대한 정보들을 2차원으로 나타냄.

Transformer 기반 아키텍처 도입(2021)

  • 다양한 센서 데이터를 통합하고 글로벌 문맥 정보를 캡처하기 위해 Transformer와 같은 고급 아키텍처가 도입되었습니다.
  • 대표적인 사례로 TransFuser가 있으며, 이는 CARLA 벤치마크에서 높은 성능을 기록함.

Modular + E2E framework

  • 모듈화된 구조를 유지하면서 E2E 방식으로 모델 학습.
  • 기존 Modular pipeline (Perception-Prediction-Planning) 구조를 유지한 채, 전체 모델을 E2E 방식으로 학습하며 interpretability를 늘리고 모델을 최적화 함

Multi-view camera based LSS

  • 멀티뷰 이미지를 bev로 변환하는 방법들이 제시됨.
  • LSS (Uft Selst Shoot) 논문을 통해 학계 및 산업계에서 Camera-BEV에 대한 관심이 높아짐
    • Input: Multi-view Images each with extrinsic/intrinsic matrix
    • Output: Rasterized representation of the given scene in the BEV
    • "Lift": 2D → 3D (operates on each image in isolation)

해석 가능성과 안전성 개선

  • 학습 과정을 더 잘 감독하거나 주의(attention) 시각화를 활용하여 해석 가능성을 높이는 연구가 진행 중입니다.
  • 안전에 중요한 데이터를 생성하고 이를 학습에 활용하는 방법론도 개발되고 있습니다.

벤치마크 도입

  • CARLA v2와 nuPlan과 같은 벤치마크는 자율주행 연구를 촉진하기 위해 도입되었으며, E2E 기술의 성능 평가와 개선을 위한 표준을 제공합니다.

 

 

References

반응형