Attention mechanism만을 사용해 인코더와 디코더를 구성한 새로운 network특징CNN과 RNN을 완전히 제거하여 간단하고 병렬화가 용이하며, 훈련 시간도 크게 단축됨.Attention Mechanism만을 사용해 입력/출력 간 global dependencies 학습.큰/한정된 데이터셋에서 모두 우수한 성능을 보임. Multi-Head Attention동일한 데이터에 여러 개의 어텐션 메커니즘을 병렬로 적용모델은 데이터의 다양한 측면을 동시에 고려- 서로 다른 의미적/구문적 관계 학습 가능.다양한 의존성 동시 고려더 풍부하고 다차원적인 데이터 표현 수집/분석 Self-Attention같은 문장 내에서 단어들 간의 관계 고려Q, K, V가 모두 동일한 embedding vector에서 도출..