Home / AI / AI 용어사전 / 트랜스포머(Transformer) — GPT를 탄생시킨 AI 핵심 구조

TERM

트랜스포머(Transformer) — GPT를 탄생시킨 AI 핵심 구조

게시일 2026-04-30수정일 2026-04-30

On this page

ChatGPT, Claude, Gemini 모두 하나의 논문에서 출발했다. 2017년 구글이 발표한 'Attention is All You Need'가 현대 AI 판도를 통째로 바꿨다. 트랜스포머 아키텍처 없이 오늘날의 대형 언어 모델은 존재하지 않는다.

정의

트랜스포머(Transformer)는 2017년 구글이 제안한 딥러닝 아키텍처다. attention 메커니즘을 핵심으로 사용해 시퀀스 내 모든 단어 간 관계를 동시에 계산한다. rnn(순환 신경망)이 단어를 순서대로 처리하던 한계를 극복하고, 병렬 처리를 가능하게 만든 구조다.

트랜스포머 이전에는 RNN과 LSTM이 자연어 처리의 표준이었다. 문장을 앞에서 뒤로 순서대로 읽어야 했기 때문에 긴 문맥에서 앞부분 정보를 잊어버리는 문제가 있었다. 트랜스포머는 문장 전체를 한 번에 보고, 모든 단어 쌍 간의 관련성을 동시에 계산해 이 문제를 해결했다.

어텐션 메커니즘 (Attention Mechanism)

트랜스포머의 핵심은 셀프 어텐션(Self-Attention)이다. "The bank was steep"에서 bank가 금융 기관인지 강둑인지 결정할 때, 주변 단어(steep, river 등)와의 관련성을 점수로 계산해 의미를 확정한다.

입력 문장: "AI가 코드를 작성한다"

어텐션 점수 계산:

- "AI" ↔ "코드" : 높은 관련성
- "AI" ↔ "작성한다" : 높은 관련성
- "코드" ↔ "작성한다" : 높은 관련성

→ 문장 전체 문맥을 한 번에 파악

멀티-헤드 어텐션(Multi-Head Attention)은 이 과정을 여러 관점에서 동시에 수행한다. 하나는 문법적 관계를, 다른 하나는 의미적 관계를 파악하는 식이다. llm이 긴 문서에서도 앞뒤 문맥을 놓치지 않는 이유가 여기 있다.

포지셔널 인코딩(Positional Encoding)은 트랜스포머가 병렬로 처리하면서도 단어 순서를 잃지 않게 하는 장치다. 각 토큰 위치에 고유한 숫자 패턴을 더해 "이 단어는 문장의 몇 번째 위치"라는 정보를 함께 전달한다.

트랜스포머 기반 모델 계보

트랜스포머 아키텍처는 BERT와 GPT 계열로 갈라졌다.

인코더 전용 (BERT 계열): 문장 전체를 양방향으로 이해한다. 앞뒤 문맥을 모두 참조해 문서 분류, 감성 분석, 정보 추출에 강점을 보인다.

디코더 전용 (GPT 계열): 이전 토큰을 보고 다음 토큰을 예측한다. ChatGPT, Claude, Gemini가 이 방식이다. 텍스트 생성에 특화되며, 자동 회귀(Autoregressive) 방식으로 한 토큰씩 생성한다.

인코더-디코더 (T5, BART 계열): 번역, 요약처럼 입력을 다른 형태로 변환하는 작업에 활용된다.

현재 GPT-4o, Claude Sonnet, Gemini 1.5 모두 트랜스포머 디코더 구조를 기반으로 대규모 데이터와 RLHF(인간 피드백 강화학습)로 훈련된 모델이다.

트랜스포머 계보:

Transformer (2017, Google)
├── BERT (2018, Google) — 인코더 전용, 양방향
│   └── RoBERTa, ALBERT, DeBERTa ...
└── GPT (2018, OpenAI) — 디코더 전용, 단방향
    ├── GPT-2, GPT-3, GPT-4, GPT-4o
    ├── Claude (Anthropic)
    └── Gemini (Google DeepMind)

활용 사례

자연어 처리(NLP): 번역, 요약, 질의응답, 코드 생성 모두 트랜스포머 기반 모델이 처리한다. 한국어 맞춤법 검사, 법률 문서 요약, 코드 자동완성이 실무에서 활용되는 대표 사례다.

멀티모달 확장: Vision Transformer(ViT)는 이미지를 패치 단위로 분해해 트랜스포머로 처리한다. GPT-4o, Claude의 이미지 인식 기능이 이 원리다.

과학 연구: AlphaFold 2(단백질 구조 예측), AlphaMissense(유전자 돌연변이 예측)도 트랜스포머 아키텍처를 채택했다. AI가 과학 연구 속도 자체를 바꾸고 있는 분야다.

음성 처리: OpenAI Whisper, Google Speech-to-Text 등 최신 음성 인식 모델도 트랜스포머 아키텍처 기반이다.

정의

트랜스포머(Transformer)는 2017년 구글 연구팀(Vaswani 등)이 제안한 딥러닝 아키텍처다. 기존 RNN(순환신경망)이 순차적으로 단어를 처리하던 방식을 버리고, 어텐션 메커니즘(Attention Mechanism)으로 모든 단어 간의 관계를 동시에 계산한다. 이 병렬 처리 능력이 대규모 언어 모델 학습을 가능하게 했다.

상세 설명

어텐션 메커니즘이란

트랜스포머의 핵심은 셀프 어텐션(Self-Attention)이다. 문장 내 각 단어가 다른 모든 단어와 얼마나 관련 있는지를 가중치로 계산한다.

예를 들어 "고양이가 쥐를 잡았다. 그것은 빨랐다"에서 '그것'이 '고양이'를 가리키는지 '쥐'를 가리키는지 파악할 때, 어텐션은 '그것'과 앞 문장의 모든 단어 간의 관련성을 동시에 계산해 정답을 찾아낸다.

RNN은 이 문장을 왼쪽에서 오른쪽으로 순차 처리하기 때문에 긴 문장에서 앞의 정보를 잃는 문제(기울기 소실)가 있었다. 트랜스포머는 거리에 관계없이 모든 위치 간 관계를 직접 계산해 이 문제를 해결했다.

인코더-디코더 구조

원래 트랜스포머는 인코더와 디코더 두 부분으로 구성됐다. 번역 작업을 예로 들면, 인코더는 입력 문장을 읽어 내부 표현(embedding 벡터)으로 변환하고, 디코더는 그 표현을 받아 출력 문장을 생성한다.

이후 이 구조를 변형해 두 계열의 모델이 탄생했다.

인코더만 사용: bert 계열. 텍스트 이해·분류에 강함.
디코더만 사용: GPT 계열. 텍스트 생성에 특화. Claude, ChatGPT, Gemini 모두 디코더 중심 아키텍처다.

멀티헤드 어텐션

트랜스포머는 단일 어텐션이 아닌 멀티헤드 어텐션(Multi-Head Attention)을 사용한다. 여러 개의 어텐션 헤드가 각각 다른 측면(문법적 관계, 의미적 관계, 지시어 해소 등)에 집중하고, 그 결과를 합쳐 더 풍부한 표현을 만든다.

예시

어텐션 스코어 계산의 개념적 흐름:

입력 토큰: ["고양이가", "쥐를", "잡았다"]

각 토큰 → Query(Q), Key(K), Value(V) 벡터 생성

어텐션 스코어 = Softmax(Q × K^T / √d_k) × V
                ↑ 모든 토큰 쌍의 관련성 동시 계산

결과: 각 토큰이 문맥 정보를 담은 새로운 벡터로 업데이트

실제 llm 모델에서는 이 계산이 수십~수백 개의 레이어(Layer)에 걸쳐 반복된다. Claude 3 Sonnet 기준으로 수십 개의 트랜스포머 레이어를 통과하며 최종 응답 토큰을 생성한다.

활용 사례

대규모 언어 모델(LLM): GPT-4, Claude, Gemini, Llama 등 모든 주요 LLM이 트랜스포머 기반. 텍스트 생성·요약·번역·코딩 보조에 활용
코드 생성: GitHub Copilot, Cursor 등 AI 코딩 도구도 트랜스포머 기반 모델을 사용. 코드 컨텍스트를 어텐션으로 분석해 자동완성 제안
이미지 생성: Stable Diffusion, DALL·E 등 이미지 생성 모델도 트랜스포머의 어텐션 메커니즘을 변형해 활용
음성 인식: OpenAI Whisper가 트랜스포머를 음성→텍스트 변환에 적용
멀티모달: GPT-4o, Gemini Ultra처럼 텍스트+이미지+오디오를 통합 처리하는 멀티모달 모델의 공통 기반

트랜스포머(Transformer) — GPT를 탄생시킨 AI 핵심 구조

정의

어텐션 메커니즘 (Attention Mechanism)

트랜스포머 기반 모델 계보

활용 사례

관련 용어

정의

상세 설명

어텐션 메커니즘이란

인코더-디코더 구조

멀티헤드 어텐션

예시

활용 사례

관련 용어