Paper

[Paper] SelfD: Self-Learning Large-Scale Driving Policies From the Web

구코딩 2025. 2. 3. 12:49
반응형

Large&Unlabeled 온라인 데이터를 효과적으로 학습할 수 있는 매커니즘.

  • Online data
    • 방대한 양의 online ego-centric 내비게이션 Large YouTube 비디오 데이터
    • unconstrained&unlabeled demonstration 온라인 데이터를 활용하여 복잡하고 동적인 환경에서 강건한 비전 기반 내비게이션을 위한 일반화된 모델

 

  • iterative semi-supervised training
    • Unlabeled data를 활용하기 위해 small labeled data에서 imitation learning.
    • 이를 사용하여 pseudo-labeled data로부터 imitation agent 학습
    • 초기 학습된 policy의 knowledge&robustness 효과적으로 augment

 

  • BEV space에서 직접 planning 학습 → 직접적인 reasoning
    • data의 플랫폼 및 시점(perspective)에 구애받지 않음.
    • dataset-agnostic & platform-agnostic 모델 설계

 

  • 효과
    • 다양한 환경과 시나리오에서 효과적으로 작동할 수 있는 확장 가능한 decision-making model
    • Robustness&generalized

 

Contributions

  1. unconstrained 이미지에서 학습할 수 있도록 새로운 모델 개발
    • BEV 계획 space로 매핑 → 카메라 캘리브레이션 없이 다양한 환경에서도 학습 가능
  2. 새로운 반지도 학습 접근법을 제안
    • hypothetical data augmentation을 포함한 self-training 기법을 도입.
    • 다양한 품질의 demonstration data를 효과적으로 활용할 수 있도록, 새로운 샘플링 기법을 개발
  3. cross-dataset experiments
    • 초기 훈련된 의사결정 모델이 최소한의 데이터 가정 하에서 self-improvement 및 generalization 능력을 향상할 수 있는지 분석
    • 다양한 환경에서 평가해 SOTA 수준의 일반화 성능 달성

 

 

Method

Overview

Initial BEV policy $f_\theta$ imitation learning

  • 특정 도메인(domain-specific)의 small, labeled dataset $\mathcal D$를 활용하여, initial BEV policy $f_θ$ 학습.
  • supervised learning을 통한 imitation learning 수행.

$f_\theta$ 활용하여 large pseudo-labeled dataset $\hat {\mathcal D}$ 생성

  • 학습된 fθ를 이용하여 unlabeled 데이터에 대해 pseudo-label 생성.
  • large pseudo-labeled dataset $\hat {\mathcal D}$ 구축.

$\hat {\mathcal D}$을 활용한 pre-training & $\mathcal D$를 활용한 fine-tuning

  • $\hat {\mathcal D}$에서 일반화된 정책 $f_θ$ pre-training
  • $\mathcal D$에서 fine-tuning하여 성능 향상.

 

Problem Setting

observations $\text x = (\mathbf I, v, c) \in \mathcal X$

  • agent가 driving navigational decision으로 매핑하는 것 학습.
  • $\mathbf I \in \mathbb{R}^{W \times H \times 3}$: 전방 카메라 이미지
  • $v \in \mathbb{R}$: ego-vehicle speed
  • $c \in \mathbb{N}$: categorical navigational command

$y \in Y$: waypoint trajectory → interpretability&generalization 뛰어남.

$f_\theta : \mathcal X \to \mathcal Y$ waypoint prediction function

$\theta \in \mathbb{R}^d$: learnable parameter

Conditional Imitation Learning from Observations(CILfO):

unlabeled on-line data $\mathcal U = \{\text I_i\}_{i=1}^M$에서도 학습이 가능하도록 label recovery 적용

  • 적절한 waypoints, 조작 명령, 속도 등을 recover하여 large pseudo-labeled dataset 생성

Initial Data Assumption

학습을 시작하기 위한 small labeled data 필요

  1. Initial policy 학습
    • human expert demonstration을 사용해 small labeled dataset 사용.
    • supervised learning based conditional imitation learning
    • dataset $\mathcal D = \{(\text x_i, \text y_i)\}{i=1}^N$를 활용하여 waypoint prediction function **$f{\theta}$ 학습**
      • loss function optimization: $\displaystyle \min_{\theta} \mathbb{E}{(x, y) \sim D} \left[ \mathcal{L}(y, f\theta(x)) \right]$
  2. pseudo-label 생성
    • 학습된 모델을 이용하여 large unlabeled data에 대해 pseudo-label을 생성하고 이를 활용하여 더욱 강건한 내비게이션 정책을 학습
    • data augmentation → policy의 robust 크게 향상
    • $\hat{y}, \hat{c}, \hat{v}$ (예측된 경로, 내비게이션 명령, 속도)를 추정하여 데이터셋 $\hat{D} = \{((\mathbf I_i, \hat{v}_i, \hat{c}_i), \hat{y}i)\}{i=1}^M$를 생성.
    • 이렇게 복원된 데이터셋을 활용하여 CIL을 적용해 policy learning.

BEV Plan Network

BEV space에서 waypoint를 직접 예측 + quality estimates 고려한 학습

  • monocular 이미지 기반 플래너를 활용하여 BEV 공간에서 직접 의사결정을 수행
  • 다양한 perspectives에서도 robust&generalize
  • 예측된 BEV 웨이포인트는 PID와 같은 low-level controller와 결합 가능

Monocular → BEV space

  • Confidence-aware learning 적용 + quality estimates 고려
  • 모델을 $f_{\theta} : \mathcal X \to \mathcal Y \times \mathcal R$로 확장 & quality estimates $σ∈\mathcal R$ 추가

Loss Function

$\mathcal L = \mathcal L_{\text{plan}} + \lambda \mathcal L_{\text{quality}}$

  • $\mathcal L_{\text{plan}}$: predicted waypoint와 ground-truth 간 L1 loss.
  • $\mathcal L_{\text{quality}}$: 예측된 품질(quality)과 실제 품질 간의 Binary Cross-Entropy
  • $λ$: 두 가지 학습 목표를 조정하는 hyper-parameter.

“What If” Pseudo-Labeling of Unlabeled Data

Unlabeled imgae $\mathcal U$에 대해 self-training을 통해 pseudo-labels 생성

"What If" Augmentation

  • On-line video data: 노이즈 심해 신뢰X trajectories + demonstration 안전X&복원 어려움.
  • unlabeled single-frame에 대해 $f_θ$를 활용하여 hypothetical future trajectories 생성, pseudo-label로 활용 → 학습 데이터 확장

 

Method

  1. speed $\hat v$ & command $\hat c$ random sampling. (가상의 값)
  2. pseudo-labels $(\hat {\mathbf y},\hat {\boldsymbol {σ}}) = f_θ(\mathbf I, \hat v, \hat c)$ → 다양한 주행 시나리오에 대한 가상 라벨링 수행
  3. Label quality estimates $\hat \sigma$: 노이즈가 심한 trajectory를 필터링 → 높은 신뢰도 데이터셋 구축

 

Future Trajectory

  • BEV 기준 meter 단위, 속도는 m/s 단위.
  • Conditional Commands: left = 1 / forward = 2 / right = 3

 

효과

  • 다양한 시나리오를 학습 가능
  • 누락된 속도 및 명령 입력을 보완 + 추가 supervision
  • 조건부 에이전트가 특정 상황에서 어떻게 행동해야 할지를 더 잘 판단할 수 있도록 돕는다
  • 일반화 성능 향상

 

Model Pre-Training and Fine-Tuning

두 dataset $\hat {\mathcal D}$ 와 $\mathcal D$ 에 대해 별도로 학습, learned representations 통해 knowledge transfer.

  1. $f_{\theta}$ 를 $\hat {\mathcal D}$에 대해 re-train.
  2. 사전 학습된 policy $f_\theta$를 $\mathcal D$에 대해 추가로 fine-tune.

효과

  • $\hat {\mathcal D}$로부터 얻은 추가적인 지식을 활용하여 성능 향상
  • learning rate 등 세밀한 hyper-parameter tuning 필요X
  • labeled data와 pseudo-labeled data 섞는 비율을 신중하게 조정할 필요X

 

 

Experiments

Experimental Setup

Dataset

  • YouTube 운전 영상 (100시간): 다양한 도시, 날씨, 낮/밤 조건을 포함한 운전 데이터 수집
  • 공개 자율주행 데이터셋 사용
    • nuScenes (Boston, Singapore) → 실험을 위해 두 지역으로 분할
    • Waymo (8개 도시)
    • Argoverse
  • 목적: 도시 간 도메인 차이를 고려하여 모델이 얼마나 일반화할 수 있는지 평가

Evaluation Metrics

Open-Loop (BEV 기반 waypoint 예측 정확도)

  • ADE (Average Displacement Error)
    • 미래의 waypoints에 대해 평균 L2 distance error 측정
  • FDE (Final Displacement Error)
    • 미래의 마지막 waypoint의 L2 거리 오차
    • 마지막 예측 지점의 정확도를 측정하는 지표
  • Collision Rate
    • 예측된 waypoints가 다른 차량과 충돌할 확률
    • nuScenes, Argoverse에서만 평가 가능

Closed-Loop (CARLA 시뮬레이션 주행 성능 평가)

  • SR (Success Rate, 성공률)
    • 목표 지점까지 도달한 비율
  • RC (Route Completion, 주행 경로 완료율)
    • 전체 주행 경로에서 얼마나 많이 진행했는지 (%)
  • Collision Frequency (충돌 빈도, per 10km)
    • 10km 주행당 충돌 횟수

Model Architecture

  • 기존 CIL 모델
    • 이미지에서 2D waypoints 예측
    • 고정된 투영 변환을 통해 BEV로 변환 (정확도 낮음)
    • ADE (Average Displacement Error): 1.86
  • 새로운 BEV Planner (제안 방법)
    • 이미지에서 직접 BEV waypoints 예측
    • 카메라 보정 정보 (intrinsic/extrinsic parameters) 없이 학습
    • ADE: 1.14

Pseudo-Labeling

 

  • YouTube 데이터에 대한 pseudo-labeling을 적용해 추가 학습
  • Visual Odometry (VO) 모델을 pseudo-label 생성에 활용했지만, 성능이 낮아짐
  • 제안된 "What If" Augmentation 적용 시 성능 향상!
  • Self-Training 없이 학습하면 ADE: 1.18
  • Self-Training + What If Augmentation 적용 시 ADE: 1.14

CARLA Closed-Loop Evaluation

반응형