반응형

전체 글 115

[Paper] ParkingE2E: Camera-based End-to-end Parking Network, from Images to Planning

BEV & Transformer Decoder 이용한 Imitation Learning 기반 End-to-end ParkingRGB 영상과 target slot으로부터 BEV 특징을 추출Transformer 기반 디코더를 이용하여 trajectory points 예측Imitation learning을 활용하여 RGB 영상에서 직접 path planning을 수행 Target query encoder입력 영상과 목표 주차 공간(feature)을 융합하여 주차 공간을 인식하는 기능을 수행합니다.BEV 특징을 활용한 높은 예측 정확도 Transformer-based decoderautoregressive 방식을 사용하여 미래의 waypoints 순차적 예측. ContributionsEnd-to-end netw..

Paper 2025.02.13

[Paper] LMDrive: Closed-Loop End-to-End Driving with Large Language Models

Language-guided Closed-loop End-to-end Driving FrameworkMulti-modal sensor data를 natural language instruction과 통합하여 처리인간 및 내비게이션 소프트웨어와의 상호작용이 가능한 현실적인 지시 환경을 구현64,000개의 instuction 수행 데이터 클립을 포함한 공개 데이터셋 & LangAuto 벤치마크를 함께 제공 LLM models for Autonomous Driving자연어를 이해할 수 있다면 복잡한 환경에서의 고급 추론과 인간과의 효율적인 상호작용 가능.복잡한 도심 환경 및 돌발 상황 대처- 복잡한&돌발 상황 어려움 → 승객이나 내비게이션의 지시를 따라 보다 쉽게 해결.Instruction 반영- 작은 물체 ..

Paper 2025.02.07

[Paper] (PPGeo) Pre-training for Autonomous Driving via Self-supervised Geometric modeling

self-supervised learning 기반 policy pre-training 프레임워크visuomotor 기반 자율 주행의 sample inefficiency 문제를 완화Large Unlabeled&uncalibrated YouTube 주행 동영상을 활용하여 3D Geometric Scene modelingpseudo label을 사용하지 않고 학습.주행과 관련된 visual input만 효과적으로 집중. Visuomotor Policy Learning센서에서 얻은 raw data를 입력으로 받아, 적절한 행동을 예측하는 policy 학습 과정visual perception과 control 모듈을 end-to-end 방식으로 동시에 학습.초기부터 학습하는 것은 어렵고, 방대한 양의 라벨이 있는 ..

Paper 2025.02.05

[Paper] SelfD: Self-Learning Large-Scale Driving Policies From the Web

Large&Unlabeled 온라인 데이터를 효과적으로 학습할 수 있는 매커니즘.Online data방대한 양의 online ego-centric 내비게이션 Large YouTube 비디오 데이터unconstrained&unlabeled demonstration 온라인 데이터를 활용하여 복잡하고 동적인 환경에서 강건한 비전 기반 내비게이션을 위한 일반화된 모델 iterative semi-supervised trainingUnlabeled data를 활용하기 위해 small labeled data에서 imitation learning.이를 사용하여 pseudo-labeled data로부터 imitation agent 학습초기 학습된 policy의 knowledge&robustness 효과적으로 augmen..

Paper 2025.02.03

[Paper] (MoCo) Momentum Contrast for Unsupervised Visual Representation Learning

contrastive learning을 위한 dynamic dictionary를 구축하는 메커니즘https://arxiv.org/pdf/1911.05722특징unsupervised visual representation learningcontrastive learning을 dictionary 형태로 바라봄.queue와 moving-average encoder 사용.downstream task에 잘 사용 가능 DictionaryLargecontinuous, high-dimensional visual space에서 sampling을 잘 하기 위해서 dictionary size가 커야 함.기저에 존재하는 연속적이고 고차원적인 시각 공간을 더 잘 샘플링할 수 있음.Queue현재 mini-batch의 인코딩된 표..

Paper 2025.01.28

[Paper] ViT - Vision Transformer

Transformer를 sequences of image patches에 직접 적용해도 classification에서 뛰어난 성능을 보임!특징NLP에서 사용되는 Transformer를 Vision Task에 적용CNN구조 대부분을 Transformer로 대체 (입력단인 Sequences of Image Patch에서만 제외)대용량 데이터셋 Pre-Train → Small Image 데이터셋에서 Transfer Learning훨씬 적은 계산 리소스로, 우수한 결과를 얻음단, 많은 데이터를 사전 학습해야 된다는 제한사항 있음이미지를 patch의 sequence로 해석한 뒤, NLP에서 사용되는 표준 Transformer 인코더로 처리단순, 확장 가능, 대규모 데이터셋으로 사전 학습 → 좋은 성능SOTA와 동..

Paper 2025.01.19

[Paper] Transformer: Attention is All You Need

Attention mechanism만을 사용해 인코더와 디코더를 구성한 새로운 network특징CNN과 RNN을 완전히 제거하여 간단하고 병렬화가 용이하며, 훈련 시간도 크게 단축됨.Attention Mechanism만을 사용해 입력/출력 간 global dependencies 학습.큰/한정된 데이터셋에서 모두 우수한 성능을 보임. Multi-Head Attention동일한 데이터에 여러 개의 어텐션 메커니즘을 병렬로 적용모델은 데이터의 다양한 측면을 동시에 고려- 서로 다른 의미적/구문적 관계 학습 가능.다양한 의존성 동시 고려더 풍부하고 다차원적인 데이터 표현 수집/분석 Self-Attention같은 문장 내에서 단어들 간의 관계 고려Q, K, V가 모두 동일한 embedding vector에서 도출..

Paper 2025.01.14

[E2E 자율주행] (7)-8 Challenges: Long-tailed Distribution

Long-tailed Distribution일반적인 상황이 대부분이고, 안전과 직결적인 상황이 드물게 발생하는 data imbalance 문제.자주 발생하는 평범한 상황(차선을 따라가는 주행 등)이 대부분을 차지하는 반면, 안전에 중요한 드문 시나리오(사고 위험 상황 등)는 데이터셋에서 매우 희소하고 다양성이 부족합니다.이로 인해 모델이 드문 상황에서 일반화하고 적응하는 데 어려움을 겪음.많은 연구가 시뮬레이터에서 적대적 시나리오에 초점을 맞추고 있지만, 실제 데이터를 더 잘 활용하여 중요한 시나리오를 탐색하고 이를 시뮬레이션에 잠재적으로 적응시키는 것도 중요합니다.안전에 중요한 시나리오를 대상으로 엔드-투-엔드 자율주행 방법을 평가하기 위해 체계적이고, 엄격하며, 포괄적이고 현실적인 테스트 프레임워크가..

[E2E 자율주행] (7)-7 Challenges: Causal Confusion

End-to-End Autonomous Driving과 관련된 다양한 게시물은Introduction에서 확인하실 수 있습니다.  Causal Confusion 모델이 본질적 인과 관계를 학습하지 못하고 비본질적 상관관계(Spurious Correlations)에 의존하는 현상모델이 데이터에서 중요한 요인을 파악하기보다는, 쉽게 사용할 수 있는 shortcut 정보에 지나치게 의존함으로써 발생.자율주행 차량의 현재 행동은 속도나 과거 궤적과 같은 low-dimensional spurious feature와 강하게 연관될 수 있음.End-to-End 모델이 이러한 특징에 의존하게 되면 causal confusion이 발생할 수 있다.이는 모델이 진정한 인과 관계를 학습하지 못하고, 단순히 부차적 패턴에 의존..

[E2E 자율주행] (7)-6 Challenges: Interpretability

End-to-End Autonomous Driving과 관련된 다양한 게시물은Introduction에서 확인하실 수 있습니다. Interpretability자율주행에서 중요한 역할.엔지니어가 시스템을 더 잘 debug하게 해줌사회적 관점(societal perspective)에서 performance 보장public acceptance 촉진.‘black box’라고 불리는 E2E 자율주행에서 interpretability를 가진다는 것은, 필수적이고 중요한 과제.Sliency map(중요도 맵)훈련된 모델이 주어지면 X-AI 기법을 적용해 얻을 수 있음.모델이 planning에 의존하는 visual input의 특정한 영역 강조한정된 정보를 제공하고 효율성과 타당성(validity) 평가 어려움.mode..