+ 개발

Transformer 모델의 원리와 작동 방식

AI.Logger 2024. 9. 28. 00:08
  • 수업 내용 리마인드 및 아카이빙 목적의 업로드


 

Transformer 모델은 최근 자연어 처리(NLP)와 컴퓨터 비전 분야에서 가장 주목받는 딥러닝 기술 중 하나입니다. 기존의 순환신경망(RNN) 기반 모델들이 가진 여러 한계를 극복하며, 빠르고 정확한 성능을 보여주고 있습니다. 이 글에서는 Transformer 모델의 핵심 개념, 작동 방식, 그리고 그 장점을 자세히 알아보겠습니다.

 

1. Transformer란?

Transformer는 RNN이나 LSTM과 달리 입력 시퀀스를 순차적으로 처리하지 않고, 병렬 처리를 통해 데이터를 학습하는 모델입니다. 특히 Self-Attention 메커니즘을 도입하여 시퀀스 내 모든 단어 간의 상호작용을 동시에 계산합니다. 이 방식은 RNN의 단점인 장기 의존성 문제를 해결하여 자연어 처리 분야에서 Transformer가 널리 사용되는 이유 중 하나입니다.

 

2. Transformer의 주요 구성 요소

Transformer는 두 가지 주요 컴포넌트인 인코더(Encoder)디코더(Decoder)로 구성되어 있습니다. 각 컴포넌트는 여러 개의 동일한 구조의 블록으로 쌓여 있으며, 각 블록은 Self-Attention피드포워드 신경망(Feed-Forward Neural Network)으로 이루어져 있습니다.

 

1) 인코더와 디코더의 역할

  • 인코더(Encoder): 입력 시퀀스를 받아 컨텍스트 벡터(Context Vector)로 변환합니다. 이 과정에서 각 단어는 다른 단어들과의 관계를 학습하게 됩니다.
  • 디코더(Decoder): 인코더에서 생성된 컨텍스트 벡터를 사용하여 목표 시퀀스를 예측하거나 번역된 문장을 생성합니다. 예를 들어, 영어 문장을 입력하면 한국어로 번역된 문장을 출력하는 과정입니다.

2) 인코더와 디코더의 연결

인코더와 디코더는 각각 독립적인 역할을 수행하면서도 서로 연결되어 있습니다. 인코더는 입력된 문장을 처리하여 컨텍스트 벡터를 생성하고, 디코더는 이를 받아 최종 출력을 생성합니다. 특히 Transformer의 인코더와 디코더는 여러 블록으로 쌓여 있어 더 깊은 학습이 가능합니다.

 

3. Self-Attention 메커니즘

Transformer의 핵심은 Self-Attention 메커니즘입니다. 이 메커니즘은 시퀀스 내에서 각 단어가 다른 단어들과 어떤 관계를 맺고 있는지를 학습합니다. 이를 통해 모델은 단어 간의 중요한 상관관계를 파악할 수 있습니다.

 

1) Self-Attention의 작동 방식

Self-Attention에서는 각 단어에 대해 세 가지 벡터인 Query, Key, Value를 생성합니다.

  • Query: 해당 단어가 다른 단어들과의 관계를 어떻게 맺는지 평가하는 벡터입니다.
  • Key: 각 단어에 대한 정보 검색의 기준이 되는 벡터입니다.
  • Value: 각 단어의 실제 정보를 담고 있는 벡터입니다.

Query와 Key 벡터의 내적(dot product)을 통해 어텐션 스코어(Attention Score)를 계산하고, 이 값을 기반으로 Value 벡터에 가중치를 부여하여 최종 컨텍스트 벡터를 생성합니다.

 

2) 예시: "it"이 가리키는 것

예를 들어, "The animal didn’t cross the street because it was too tired"라는 문장에서 Self-Attention 메커니즘은 "it"이 "animal"을 가리키는지, 아니면 "street"을 가리키는지를 계산합니다. 이처럼 Self-Attention은 문맥 내 단어들 간의 상호작용을 파악하는 데 중요한 역할을 합니다.

 

4. 멀티헤드 어텐션(Multi-Head Attention)

Transformer는 단순한 어텐션 메커니즘을 여러 개 병렬로 사용하는 멀티헤드 어텐션 메커니즘을 도입하여, 단어 간 관계를 다양한 관점에서 학습합니다. 이를 통해 각 어텐션 헤드가 서로 다른 관계에 집중하여 더 풍부한 정보를 얻을 수 있습니다.

 

1) 멀티헤드 어텐션의 과정

  1. Query, Key, Value 벡터를 각각 N개의 헤드로 분할합니다.
  2. 각 헤드에서 독립적으로 어텐션을 수행합니다.
  3. 각 헤드의 결과를 결합하여 최종 출력을 생성합니다.

이 과정을 통해 모델은 문장의 다양한 부분에서 관계를 다각도로 학습할 수 있으며, 단일 어텐션 메커니즘보다 더 세밀한 관계를 파악할 수 있습니다.

 

5. 위치 인코딩(Positional Encoding)

Transformer는 RNN처럼 데이터를 순차적으로 처리하지 않기 때문에 단어의 위치 정보를 따로 처리해야 합니다. 이를 위해 위치 인코딩(Positional Encoding)을 사용합니다.

 

1) 위치 인코딩의 역할

위치 인코딩은 각 단어의 위치 정보를 벡터로 변환하여 입력 임베딩에 추가합니다. 이를 통해 Transformer는 입력된 단어들이 문장에서 어떤 순서로 등장했는지를 알 수 있습니다. 사인 함수와 코사인 함수를 이용하여 주기적인 패턴으로 단어들의 상대적 위치 정보를 모델에 전달합니다.

 

6. 잔차 연결과 피드포워드 신경망

Transformer는 잔차 연결(Residual Connection)을 사용하여 기울기 소실 문제를 방지하고, 깊은 네트워크에서도 정보 흐름을 원활하게 하여 학습 성능을 개선합니다. 이는 각 레이어의 입력값을 출력에 더해주는 방식으로 정보 손실을 최소화하고 모델의 안정성을 높입니다.

또한, 피드포워드 신경망(Feed-Forward Neural Network)은 각 단어에 대해 독립적으로 적용되어 병렬 처리가 가능하며, 이를 통해 학습 속도를 향상시킵니다.

 

7. Transformer의 출력: Linear 및 Softmax

Transformer는 최종적으로 선형 레이어(Linear Layer)소프트맥스 함수(Softmax Function)를 통해 예측값을 도출합니다. 선형 레이어는 모델이 학습한 벡터를 어휘 집합(Vocabulary)의 크기로 변환하고, 소프트맥스 함수는 각 단어에 대한 확률 분포를 계산하여 가장 적합한 단어를 선택합니다.