반응형

Paper 7

[Paper] ParkingE2E: Camera-based End-to-end Parking Network, from Images to Planning

BEV & Transformer Decoder 이용한 Imitation Learning 기반 End-to-end ParkingRGB 영상과 target slot으로부터 BEV 특징을 추출Transformer 기반 디코더를 이용하여 trajectory points 예측Imitation learning을 활용하여 RGB 영상에서 직접 path planning을 수행 Target query encoder입력 영상과 목표 주차 공간(feature)을 융합하여 주차 공간을 인식하는 기능을 수행합니다.BEV 특징을 활용한 높은 예측 정확도 Transformer-based decoderautoregressive 방식을 사용하여 미래의 waypoints 순차적 예측. ContributionsEnd-to-end netw..

Paper 2025.02.13

[Paper] LMDrive: Closed-Loop End-to-End Driving with Large Language Models

Language-guided Closed-loop End-to-end Driving FrameworkMulti-modal sensor data를 natural language instruction과 통합하여 처리인간 및 내비게이션 소프트웨어와의 상호작용이 가능한 현실적인 지시 환경을 구현64,000개의 instuction 수행 데이터 클립을 포함한 공개 데이터셋 & LangAuto 벤치마크를 함께 제공 LLM models for Autonomous Driving자연어를 이해할 수 있다면 복잡한 환경에서의 고급 추론과 인간과의 효율적인 상호작용 가능.복잡한 도심 환경 및 돌발 상황 대처- 복잡한&돌발 상황 어려움 → 승객이나 내비게이션의 지시를 따라 보다 쉽게 해결.Instruction 반영- 작은 물체 ..

Paper 2025.02.07

[Paper] (PPGeo) Pre-training for Autonomous Driving via Self-supervised Geometric modeling

self-supervised learning 기반 policy pre-training 프레임워크visuomotor 기반 자율 주행의 sample inefficiency 문제를 완화Large Unlabeled&uncalibrated YouTube 주행 동영상을 활용하여 3D Geometric Scene modelingpseudo label을 사용하지 않고 학습.주행과 관련된 visual input만 효과적으로 집중. Visuomotor Policy Learning센서에서 얻은 raw data를 입력으로 받아, 적절한 행동을 예측하는 policy 학습 과정visual perception과 control 모듈을 end-to-end 방식으로 동시에 학습.초기부터 학습하는 것은 어렵고, 방대한 양의 라벨이 있는 ..

Paper 2025.02.05

[Paper] SelfD: Self-Learning Large-Scale Driving Policies From the Web

Large&Unlabeled 온라인 데이터를 효과적으로 학습할 수 있는 매커니즘.Online data방대한 양의 online ego-centric 내비게이션 Large YouTube 비디오 데이터unconstrained&unlabeled demonstration 온라인 데이터를 활용하여 복잡하고 동적인 환경에서 강건한 비전 기반 내비게이션을 위한 일반화된 모델 iterative semi-supervised trainingUnlabeled data를 활용하기 위해 small labeled data에서 imitation learning.이를 사용하여 pseudo-labeled data로부터 imitation agent 학습초기 학습된 policy의 knowledge&robustness 효과적으로 augmen..

Paper 2025.02.03

[Paper] (MoCo) Momentum Contrast for Unsupervised Visual Representation Learning

contrastive learning을 위한 dynamic dictionary를 구축하는 메커니즘https://arxiv.org/pdf/1911.05722특징unsupervised visual representation learningcontrastive learning을 dictionary 형태로 바라봄.queue와 moving-average encoder 사용.downstream task에 잘 사용 가능 DictionaryLargecontinuous, high-dimensional visual space에서 sampling을 잘 하기 위해서 dictionary size가 커야 함.기저에 존재하는 연속적이고 고차원적인 시각 공간을 더 잘 샘플링할 수 있음.Queue현재 mini-batch의 인코딩된 표..

Paper 2025.01.28

[Paper] ViT - Vision Transformer

Transformer를 sequences of image patches에 직접 적용해도 classification에서 뛰어난 성능을 보임!특징NLP에서 사용되는 Transformer를 Vision Task에 적용CNN구조 대부분을 Transformer로 대체 (입력단인 Sequences of Image Patch에서만 제외)대용량 데이터셋 Pre-Train → Small Image 데이터셋에서 Transfer Learning훨씬 적은 계산 리소스로, 우수한 결과를 얻음단, 많은 데이터를 사전 학습해야 된다는 제한사항 있음이미지를 patch의 sequence로 해석한 뒤, NLP에서 사용되는 표준 Transformer 인코더로 처리단순, 확장 가능, 대규모 데이터셋으로 사전 학습 → 좋은 성능SOTA와 동..

Paper 2025.01.19

[Paper] Transformer: Attention is All You Need

Attention mechanism만을 사용해 인코더와 디코더를 구성한 새로운 network특징CNN과 RNN을 완전히 제거하여 간단하고 병렬화가 용이하며, 훈련 시간도 크게 단축됨.Attention Mechanism만을 사용해 입력/출력 간 global dependencies 학습.큰/한정된 데이터셋에서 모두 우수한 성능을 보임. Multi-Head Attention동일한 데이터에 여러 개의 어텐션 메커니즘을 병렬로 적용모델은 데이터의 다양한 측면을 동시에 고려- 서로 다른 의미적/구문적 관계 학습 가능.다양한 의존성 동시 고려더 풍부하고 다차원적인 데이터 표현 수집/분석 Self-Attention같은 문장 내에서 단어들 간의 관계 고려Q, K, V가 모두 동일한 embedding vector에서 도출..

Paper 2025.01.14