반응형

2025/02 4

[Paper] ParkingE2E: Camera-based End-to-end Parking Network, from Images to Planning

BEV & Transformer Decoder 이용한 Imitation Learning 기반 End-to-end ParkingRGB 영상과 target slot으로부터 BEV 특징을 추출Transformer 기반 디코더를 이용하여 trajectory points 예측Imitation learning을 활용하여 RGB 영상에서 직접 path planning을 수행 Target query encoder입력 영상과 목표 주차 공간(feature)을 융합하여 주차 공간을 인식하는 기능을 수행합니다.BEV 특징을 활용한 높은 예측 정확도 Transformer-based decoderautoregressive 방식을 사용하여 미래의 waypoints 순차적 예측. ContributionsEnd-to-end netw..

Paper 2025.02.13

[Paper] LMDrive: Closed-Loop End-to-End Driving with Large Language Models

Language-guided Closed-loop End-to-end Driving FrameworkMulti-modal sensor data를 natural language instruction과 통합하여 처리인간 및 내비게이션 소프트웨어와의 상호작용이 가능한 현실적인 지시 환경을 구현64,000개의 instuction 수행 데이터 클립을 포함한 공개 데이터셋 & LangAuto 벤치마크를 함께 제공 LLM models for Autonomous Driving자연어를 이해할 수 있다면 복잡한 환경에서의 고급 추론과 인간과의 효율적인 상호작용 가능.복잡한 도심 환경 및 돌발 상황 대처- 복잡한&돌발 상황 어려움 → 승객이나 내비게이션의 지시를 따라 보다 쉽게 해결.Instruction 반영- 작은 물체 ..

Paper 2025.02.07

[Paper] (PPGeo) Pre-training for Autonomous Driving via Self-supervised Geometric modeling

self-supervised learning 기반 policy pre-training 프레임워크visuomotor 기반 자율 주행의 sample inefficiency 문제를 완화Large Unlabeled&uncalibrated YouTube 주행 동영상을 활용하여 3D Geometric Scene modelingpseudo label을 사용하지 않고 학습.주행과 관련된 visual input만 효과적으로 집중. Visuomotor Policy Learning센서에서 얻은 raw data를 입력으로 받아, 적절한 행동을 예측하는 policy 학습 과정visual perception과 control 모듈을 end-to-end 방식으로 동시에 학습.초기부터 학습하는 것은 어렵고, 방대한 양의 라벨이 있는 ..

Paper 2025.02.05

[Paper] SelfD: Self-Learning Large-Scale Driving Policies From the Web

Large&Unlabeled 온라인 데이터를 효과적으로 학습할 수 있는 매커니즘.Online data방대한 양의 online ego-centric 내비게이션 Large YouTube 비디오 데이터unconstrained&unlabeled demonstration 온라인 데이터를 활용하여 복잡하고 동적인 환경에서 강건한 비전 기반 내비게이션을 위한 일반화된 모델 iterative semi-supervised trainingUnlabeled data를 활용하기 위해 small labeled data에서 imitation learning.이를 사용하여 pseudo-labeled data로부터 imitation agent 학습초기 학습된 policy의 knowledge&robustness 효과적으로 augmen..

Paper 2025.02.03