Inference(추론) — AI가 답을 만들어내는 그 순간

게시일 2026-04-30수정일 2026-04-30

On this page

ChatGPT에 질문을 보내는 그 순간, AI는 학습이 아닌 추론(Inference)을 실행하고 있다. 학습은 이미 끝났고, 파라미터는 고정된 채로 입력을 받아 출력을 만들어낸다. AI 서비스 운영 비용의 대부분은 이 추론 단계에서 발생한다.

정의

추론(Inference)은 학습이 완료된 AI 모델이 새로운 입력(Input)을 받아 출력(Output)을 생성하는 단계다. 모델 파라미터는 고정된 상태에서 순방향(Forward Pass) 연산만 수행한다. 학습(Training)에서 파라미터가 지속적으로 업데이트되는 것과 달리, 추론에서는 파라미터가 변하지 않는다.

학습과 추론의 차이

| 구분 | 학습(Training) | 추론(Inference) | |---|---|---| | 파라미터 | 지속 업데이트 | 고정 | | 연산 방향 | Forward + Backward Pass | Forward Pass만 | | GPU 사용량 | 매우 높음 | 학습 대비 낮음 | | 반복 횟수 | 수백만~수십억 번 | 1회 (요청당) | | 목적 | 패턴 학습 | 새 입력에 대한 예측 |

학습에는 역전파(Backpropagation) 과정이 필요해 연산량이 훨씬 크지만, 추론은 입력에서 출력까지 단방향으로만 흐르기 때문에 상대적으로 가볍다. 그러나 수백만 명이 동시에 요청을 보내는 대형 서비스에서는 추론 인프라 비용이 압도적으로 크다.

LLM 추론의 구조

llm 에서 추론은 token|토큰 생성 과정을 반복하며 진행된다.

1. 프롬프트 처리: 입력 텍스트를 토큰으로 분리하고, 각 토큰을 임베딩 벡터로 매핑한다. 2. 어텐션 계산: transformer 아키텍처의 셀프어텐션 메커니즘이 토큰 간 관계를 계산한다. 3. 다음 토큰 예측: 현재까지의 토큰 시퀀스를 기반으로 다음 토큰의 확률 분포를 계산한다. 4. 샘플링: 확률 분포에서 다음 토큰을 선택한다. temperature 값이 높을수록 다양한 토큰이, 낮을수록 확률이 높은 토큰이 선택된다. 5. 반복: EOS 토큰 또는 최대 길이 도달까지 3~4단계를 반복한다.

추론 최적화 기술

양자화(Quantization): 모델 파라미터를 32비트 부동소수점에서 8비트 또는 4비트 정수로 압축한다. 정확도가 소폭 낮아지는 대신 메모리 사용량과 연산 시간이 크게 줄어든다. llama.cpp, GGUF 포맷이 대표적인 구현체다.

KV 캐시(KV Cache): 이전에 계산한 Key-Value 어텐션 행렬을 캐시에 저장해, 토큰 생성 시마다 전체를 재계산하지 않는다. 긴 컨텍스트에서 응답 속도를 크게 향상시킨다.

배치 처리(Batching): 여러 요청을 묶어 한 번에 처리해 gpu 활용률을 높인다. 지속적 배치(Continuous Batching)는 요청이 순차적으로 들어오는 서비스에서 응답 지연을 줄이는 핵심 기법이다.

모델 경량화: DistilBERT, TinyLLaMA처럼 대형 모델을 지식 증류(Knowledge Distillation)로 압축해 추론 비용을 낮춘다.

추론 비용이 핵심 사업 변수인 이유

2024년 기준, ChatGPT의 추론 비용은 하루 수십만 달러로 추정된다. AI 서비스 기업의 수익성은 추론 단가에 직결된다. gpu 공급 부족이 AI 서비스 확장의 병목이 되는 것도 이 이유에서다.

온디바이스 AI(On-Device AI) 트렌드는 추론을 서버가 아닌 스마트폰·PC에서 직접 수행해 통신 지연과 서버 비용을 없애는 방향이다. Apple Silicon의 Neural Engine, Qualcomm NPU가 이를 위해 설계된 칩이다. 모델이 점차 경량화·압축되면서 디바이스 추론의 현실성이 높아지고 있다.

활용 사례

실시간 번역: 입력 문장이 들어오는 즉시 추론을 실행해 번역문을 반환한다.
이미지 분류: 업로드된 이미지에 대해 단 한 번의 forward pass로 레이블을 예측한다.
추천 시스템: 사용자 행동 데이터를 입력해 추천 아이템의 확률을 계산한다.
코드 자동완성: IDE에서 커서 위치까지의 코드를 입력으로 받아 다음 줄을 실시간으로 생성한다.

정의

학습과 추론의 차이

LLM 추론의 구조

추론 최적화 기술

추론 비용이 핵심 사업 변수인 이유

활용 사례

관련 용어