캐시(Cache) — AI가 같은 질문에 더 빠르게 답하는 비결

게시일 2026-04-30수정일 2026-04-30

공식 링크

On this page

AI 서비스에서 동일한 질문을 두 번 하면 두 번째가 훨씬 빠르다. 그 차이의 핵심이 캐시다. 반복 연산을 저장해두고 재사용하는 임시 기억소, 캐시의 모든 것을 정리한다.

정의

캐시(Cache)는 자주 사용되는 데이터나 연산 결과를 빠른 저장소에 임시 보관해, 동일 요청 시 원본 소스 접근 없이 즉시 반환하는 기술이다.

캐시의 핵심 원리는 지역성(Locality)이다.

시간적 지역성: 최근 사용된 데이터는 곧 다시 사용될 가능성이 높다
공간적 지역성: 자주 사용되는 데이터 근처의 데이터도 함께 사용될 가능성이 높다

주요 용어:

캐시 히트(Cache Hit): 요청한 데이터가 캐시에 있어 바로 반환
캐시 미스(Cache Miss): 캐시에 없어 원본 소스에서 새로 가져옴
TTL(Time To Live): 캐시 데이터의 유효 기간

캐시의 종류

브라우저 캐시: 웹 페이지의 이미지·CSS·JS 파일을 로컬에 저장한다. Cache-Control HTTP 헤더로 유효 기간을 설정한다. AI 서비스의 UI 자산이 재방문 시 빠르게 로드되는 이유다.

CDN 캐시: Cloudflare, Vercel Edge Network 등 지리적으로 분산된 캐시 서버다(cdn). 서울에서 접속하면 미국 원서버 대신 아시아 엣지 노드에서 파일을 받는다. 지연을 수십~수백ms 줄인다.

서버 캐시 (Redis): redis는 메모리 기반 인메모리 캐시 서버다. database 쿼리 결과, AI API 응답 등을 수 마이크로초 내에 반환한다. 디스크 I/O가 없어 DB 대비 100배 이상 빠르다.

CPU 캐시: L1/L2/L3 캐시. AI 모델 추론(Inference) 시 자주 접근하는 가중치 데이터를 CPU 근처에 두어 연산 속도를 높인다. 하드웨어 수준의 캐시로 소프트웨어에서 직접 제어하지 않는다.

AI 서비스의 프롬프트 캐싱

AI API에서 프롬프트 캐싱(Prompt Caching)은 llm 추론 비용과 지연을 동시에 줄이는 핵심 기능이다.

Anthropic Claude의 프롬프트 캐싱 (2026-04 기준):

시스템 프롬프트나 긴 문서를 첫 호출 시 캐시에 저장
이후 동일한 캐시 포인트까지의 내용은 재처리 없이 반환
입력 토큰 비용 최대 90% 절감, 응답 속도 최대 85% 향상

# Anthropic 프롬프트 캐싱 예시
response = client.messages.create(
    model="claude-sonnet-4-6",
    system=[{
        "type": "text",
        "text": long_system_prompt,
        "cache_control": {"type": "ephemeral"}  # 캐시 마킹
    }],
    messages=[{"role": "user", "content": user_query}]
)

캐시는 기본 5분 동안 유지된다. 같은 시스템 프롬프트로 여러 사용자 요청을 처리하는 AI 앱에서 효과가 크다. 예를 들어 100페이지 분량의 문서를 RAG 컨텍스트로 주입하는 경우, 첫 호출 이후에는 해당 문서 처리 비용이 90% 이상 절감된다.

캐시 무효화 — 가장 어려운 문제

캐시를 관리하는 가장 큰 난제는 언제 캐시를 지울 것인가다. 컴퓨터 과학에서 "캐시 무효화(Cache Invalidation)"는 가장 어려운 문제 중 하나로 꼽힌다.

데이터가 변경됐는데 캐시가 만료되지 않으면 낡은 데이터(Stale Data)가 반환된다. AI 서비스에서 모델이 업데이트됐는데 이전 응답이 캐시에서 나오는 상황이 이에 해당한다.

캐시 키 전략:

시간 기반(TTL): N초 후 자동 만료. 단순하지만 변경 즉시 반영 안 됨
버전 기반: URL에 버전 해시 포함 (/assets/main.a3f2b1.js). 변경 시 키 자체가 달라짐
이벤트 기반: 데이터 변경 이벤트 발생 시 캐시 즉시 삭제

활용 사례

AI FAQ 응답 캐싱: 자주 반복되는 질문의 응답을 Redis에 캐싱해 llm 호출 비용 절감
임베딩 캐싱: 자주 사용되는 텍스트의 embedding 결과를 저장해 벡터 계산 비용 절감
API Rate Limit 대응: 외부 API 결과를 캐싱해 호출 횟수 제한 내에서 서비스 유지
정적 자산 CDN 캐싱: AI 서비스 UI의 이미지·JS·CSS 빠른 로딩

정의

캐시의 종류

AI 서비스의 프롬프트 캐싱

캐시 무효화 — 가장 어려운 문제

활용 사례

관련 용어