반응형
End-to-End Autonomous Driving과 관련된 다양한 게시물은
Introduction에서 확인하실 수 있습니다.
Sensing
- monocular camera: 초기 방식- Lane following 기술, 복잡한 상황을 처리하는 것에 한계
- RGB images from cameras: 인간의 시각적 정보 재현, 풍족한 의미론적 디테일
- LiDAR or stereo cameras: 정확한 3D 공간 정보 제공
- mmWave radars and event cameras: 객체의 상대적 움직임 포착
- Speedometers, IMU, 내비게이션 명령 등: 시스템을 안내하는 입력 데이터로 사용
Multi-sensor Fusion
주로 object detection, semantic segmentation과 같은 perception 관련 분야.
- Early fusion: sensory input을 결합한 뒤 shared feature extractor로 전달하며, 데이터 병합에는 주로 concatenation 사용.
- Middle fusion: input data를 별도로 encoding한 뒤 feature level에서 융합, naive concatenation 빈번히 적용.
- Late fusion: 여러 센서의 결과를 결합하지만 성능이 낮아 자율주행에서 잘 사용되지 않음.
최근에는 Transformer model과 Attention mechanism이 도입되어 유효성을 보임.
BEV-based Approach
BEV를 활용해 End-to-End에서 필요로 하는 policy-related context를 식별하고 불필요한 세부정보를 제거하는 방식이 제안.
Transformer 기반 fusion은 계산 비용이 높고 정보 추출에 한계가 있어, 이를 개선할 수 있는 기법의 연구 필요.
Language as Input
인간은 visual perception과 intrinsic knowledge를 결합해 causal behaviors를 형성하며 운전.
인공지능 로봇 연구에서는 자연어를 fine-grained knowledge와 instruction으로 통합해 visuomoter agent를 제어하는 방식에서 큰 발전을 이룸.
자율주행은 task decomposition이 필요하지 않으며, 환경은 동적인 요소가 많고 distinctive anchor가 적다는 점에서 더 복잡함.
- HAD: human-to-vehicle advice를 받아 visual grounding task 추가.
- CLIP-MC, LM-Nav: CLIP 모델을 사용해 명령으로부터의 linguistic knowledge와 이미지로부터의 visual feature 추출.
- LLM 도입: scene을 token화하여 control prediction, text-based explanations에 활용하는 연구 진행. 운전 과제를 질의응답 문제로 정의하거나, 복잡한 명령을 처리하고 다양한 데이터 도메인에 일반화.
문제점
- 느린 추론 속도
- 낮은 정량적 정확성
- 결과의 불안정성
해결책
- 복잡한 상황에 클라우드 기반 LLM 사용
- high-level behavior prediction에만 활용
반응형