레이턴시(Latency) — AI 응답 속도를 결정하는 지연 시간의 정체

게시일 2026-04-30수정일 2026-04-30

공식 링크

On this page

AI 서비스의 반응 속도는 단 하나의 구간에서 결정되지 않는다. 사용자가 전송 버튼을 누르는 순간부터 첫 번째 글자가 화면에 뜨기까지, 세 개의 서로 다른 병목이 순서대로 기다리고 있다.

정의

레이턴시(Latency)는 요청이 전송된 시점부터 첫 번째 응답이 도착하기까지 걸리는 시간이다. 단위는 밀리초(ms)를 사용하며, 네트워크·모델 추론·데이터베이스 쿼리 세 단계의 합산이 전체 체감 속도를 결정한다.

상세 설명

레이턴시는 크게 세 구간으로 분해된다.

네트워크 레이턴시는 클라이언트와 서버 사이의 물리적 거리, 라우팅 홉 수, 패킷 손실률에 따라 결정된다. CDN을 사용하면 엣지 서버에서 응답을 처리해 이 구간을 대폭 줄일 수 있다. 한국 사용자가 미국 동부 서버에 직접 요청하면 평균 150~200ms의 왕복 시간이 발생한다.

모델 추론 레이턴시는 AI 모델이 입력을 처리하고 출력 토큰을 생성하는 데 걸리는 시간이다. 모델 크기, 배치 크기, GPU 클록 속도, quantization 적용 여부가 주요 변수다. 같은 모델이라도 컨텍스트 길이가 길어질수록 추론 시간이 늘어난다.

DB·캐시 쿼리 레이턴시는 대화 이력 조회, 사용자 설정 로드, 외부 지식 검색(rag) 등 I/O 작업에서 발생한다. 인덱스 설계와 cache 전략으로 이 구간을 줄이는 것이 실무에서 자주 다루는 최적화 포인트다.

스트리밍 응답(Server-Sent Events, WebSocket)은 레이턴시 자체를 줄이지 않지만, 첫 번째 토큰이 도착하는 순간부터 출력을 표시해 사용자 체감 속도를 개선한다. "Time to First Token(TTFT)"이 UX 핵심 지표로 쓰이는 이유다.

측정 예시

# curl 로 TTFT 측정 (스트리밍 엔드포인트)
curl -w "\n총 시간: %{time_total}s\n연결: %{time_connect}s\n첫 바이트: %{time_starttransfer}s\n" \
  -s -o /dev/null \
  https://api.example.com/v1/stream

연결:      0.051s   ← 네트워크 레이턴시
첫 바이트: 0.423s   ← TTFT (모델 추론 시작까지)
총 시간:   2.817s   ← 전체 응답 완료

활용 사례

실시간 챗봇 응답 속도 SLA 설계 (TTFT ≤ 500ms 기준 등)
AI API 공급사 선택 기준 — GPT-4o vs Claude Sonnet 레이턴시 벤치마크
엣지 배포 전략: Cloudflare Workers AI, Vercel Edge Functions 활용
rate-limiting과 결합한 서버 부하 관리

정의

상세 설명

측정 예시

활용 사례

관련 용어