Autonomous Driving/End-to-End Autonomous Driving

[E2E 자율주행] (7)-2 Challenges: Sensing / Sensor-fusion / Input Modalities

구코딩 2024. 12. 13. 00:54
반응형
End-to-End Autonomous Driving과 관련된 다양한 게시물은
Introduction에서 확인하실 수 있습니다.

Sensing

  • monocular camera: 초기 방식- Lane following 기술, 복잡한 상황을 처리하는 것에 한계
  • RGB images from cameras: 인간의 시각적 정보 재현, 풍족한 의미론적 디테일
  • LiDAR or stereo cameras: 정확한 3D 공간 정보 제공
  • mmWave radars and event cameras: 객체의 상대적 움직임 포착
  • Speedometers, IMU, 내비게이션 명령 등: 시스템을 안내하는 입력 데이터로 사용

 

Multi-sensor Fusion

주로 object detection, semantic segmentation과 같은 perception 관련 분야.

  • Early fusion: sensory input을 결합한 뒤 shared feature extractor로 전달하며, 데이터 병합에는 주로 concatenation 사용.
  • Middle fusion: input data를 별도로 encoding한 뒤 feature level에서 융합, naive concatenation 빈번히 적용.
  • Late fusion: 여러 센서의 결과를 결합하지만 성능이 낮아 자율주행에서 잘 사용되지 않음.

최근에는 Transformer modelAttention mechanism이 도입되어 유효성을 보임.

 

BEV-based Approach

BEV를 활용해 End-to-End에서 필요로 하는 policy-related context를 식별하고 불필요한 세부정보를 제거하는 방식이 제안.

Transformer 기반 fusion은 계산 비용이 높고 정보 추출에 한계가 있어, 이를 개선할 수 있는 기법의 연구 필요.

 

Language as Input

인간은 visual perception과 intrinsic knowledge를 결합해 causal behaviors를 형성하며 운전.

인공지능 로봇 연구에서는 자연어를 fine-grained knowledge와 instruction으로 통합해 visuomoter agent를 제어하는 방식에서 큰 발전을 이룸.

자율주행은 task decomposition이 필요하지 않으며, 환경은 동적인 요소가 많고 distinctive anchor가 적다는 점에서 더 복잡함.

  • HAD: human-to-vehicle advice를 받아 visual grounding task 추가.
  • CLIP-MC, LM-Nav: CLIP 모델을 사용해 명령으로부터의 linguistic knowledge와 이미지로부터의 visual feature 추출.
  • LLM 도입: scene을 token화하여 control prediction, text-based explanations에 활용하는 연구 진행. 운전 과제를 질의응답 문제로 정의하거나, 복잡한 명령을 처리하고 다양한 데이터 도메인에 일반화.

문제점

  • 느린 추론 속도
  • 낮은 정량적 정확성
  • 결과의 불안정성

해결책

  • 복잡한 상황에 클라우드 기반 LLM 사용
  • high-level behavior prediction에만 활용
반응형