Transformer를 sequences of image patches에 직접 적용해도 classification에서 뛰어난 성능을 보임!특징NLP에서 사용되는 Transformer를 Vision Task에 적용CNN구조 대부분을 Transformer로 대체 (입력단인 Sequences of Image Patch에서만 제외)대용량 데이터셋 Pre-Train → Small Image 데이터셋에서 Transfer Learning훨씬 적은 계산 리소스로, 우수한 결과를 얻음단, 많은 데이터를 사전 학습해야 된다는 제한사항 있음이미지를 patch의 sequence로 해석한 뒤, NLP에서 사용되는 표준 Transformer 인코더로 처리단순, 확장 가능, 대규모 데이터셋으로 사전 학습 → 좋은 성능SOTA와 동..