Context Window — AI가 대화를 잊기 시작하는 경계선

게시일 2026-04-30수정일 2026-04-30

On this page

AI와 대화하다 보면 앞서 나눈 이야기를 갑자기 기억하지 못하는 순간을 마주하게 된다. 긴 문서를 분석하다 앞 내용을 잊거나, 초반에 설정한 조건을 무시하기 시작한다. 이 현상의 중심에 Context Window(컨텍스트 윈도우)가 있다.

정의

Context Window(컨텍스트 윈도우, 문맥 창)는 llm이 하나의 추론 과정에서 동시에 처리할 수 있는 최대 token 수를 의미한다. 이 범위를 초과한 텍스트는 모델의 처리 대상에서 자동으로 제외된다. 사람의 단기 기억처럼, 이 창 안에 있는 내용만 현재 추론에 영향을 준다.

토큰이란 무엇인가

token(토큰)은 llm이 텍스트를 처리하는 기본 단위다. 단어 하나가 하나의 토큰이 되기도 하고, 한 단어가 여러 토큰으로 분리되기도 한다. 영문 기준으로 단어 하나가 대략 1~1.5 토큰에 해당하며, 한국어는 같은 의미를 표현하는 데 영문보다 약 1.5~2배 더 많은 토큰을 사용한다.

예를 들어, 100,000 토큰의 컨텍스트 윈도우는 영문 기준 약 75,000단어, 한국어 기준으로는 약 40,000~50,000단어에 해당하는 분량이다.

컨텍스트 윈도우를 초과하면

컨텍스트 윈도우를 초과하면 두 가지 방식으로 처리된다.

슬라이딩 윈도우: 가장 오래된 내용부터 잘라낸다. 대화 초반에 설정한 조건이나 지시사항이 돌연 유효하지 않아지는 원인이 된다. "처음에 말한 대로"라고 해도 모델은 그 내용을 볼 수 없다.

요약 압축: 일부 구현에서는 초과된 내용을 자동으로 요약해 압축 토큰으로 대체한다. 세부 사항은 손실되며, 대화 흐름의 연속성이 깨질 수 있다.

컨텍스트 윈도우 크기는 AI 서비스 선택의 핵심 기준 중 하나다. 2026년 기준 주요 모델의 컨텍스트 윈도우 규모는 다음과 같다.

| 모델 | 컨텍스트 윈도우 | |---|---| | Claude Sonnet 4.6 | 200,000 토큰 | | GPT-4o | 128,000 토큰 | | Gemini 1.5 Pro | 1,000,000 토큰 |

*2026-04 기준, 각 모델 공식 문서 기준. 변경될 수 있음.*

실용적 활용 전략

긴 문서 처리: PDF, 코드베이스 전체를 컨텍스트에 넣으려면 큰 컨텍스트 윈도우 모델을 선택한다. 문서 길이가 컨텍스트 윈도우를 초과하지 않는지 토큰 수를 사전에 확인하는 것이 좋다.

핵심 지시사항 반복: 긴 대화에서는 초반에 설정한 중요한 조건을 대화 중반에 재입력하는 것이 안전하다. 컨텍스트 한계 근처에서는 초반 지시가 잘려나갈 수 있다.

rag 활용: 외부 지식은 컨텍스트에 직접 넣는 대신 rag로 필요한 부분만 검색해 삽입한다. 수백만 토큰 분량의 문서도 검색 기반으로 필요한 부분만 컨텍스트에 주입하면 효율적이다.

구조적 프롬프트: 시스템 프롬프트를 간결하게 유지하고, 가장 중요한 지시를 앞부분에 배치한다. 컨텍스트가 잘릴 때 앞부분은 마지막에 잘리는 경향이 있다.

정의

토큰이란 무엇인가

컨텍스트 윈도우를 초과하면

실용적 활용 전략

관련 용어