RLHF — 인간 피드백으로 AI를 정렬하는 학습법

게시일 2026-04-30수정일 2026-04-30

On this page

ChatGPT가 단순히 "다음 단어를 예측하는 모델"이 아니라 "사람이 원하는 방식으로 대화하는 AI"로 진화한 핵심에 RLHF가 있다. AI가 유해한 요청을 거절하고, 지시를 정확히 따르고, 공손하게 대답하는 행동 방식 전체가 이 학습법에서 비롯된다.

정의

RLHF(Reinforcement Learning from Human Feedback)는 인간 평가자의 선호 데이터를 활용해 언어 모델을 정렬(alignment)하는 학습 방법이다. 기존 사전학습 모델이 텍스트 예측에 집중한다면, RLHF는 "사람이 더 선호하는 응답"을 강화학습으로 내면화시킨다.

한글 별칭: 인간 피드백 강화학습 / 인간 피드백으로 학습하는 강화학습 원어: Reinforcement Learning from Human Feedback

작동 원리: 3단계 파이프라인

RLHF는 세 단계로 구성된다.

1단계 — 지도 학습 미세조정(SFT) 사전학습된 llm을 인간이 직접 작성한 예시 응답으로 미세조정한다. 모델은 이 단계에서 기본적인 지시 따르기 능력을 획득한다.

2단계 — 보상 모델(Reward Model) 학습 인간 평가자가 같은 질문에 대한 여러 모델 응답을 비교·순위화한다. 이 선호 비교 데이터를 바탕으로 "어떤 응답이 더 좋은지" 점수를 매기는 보상 모델을 별도로 학습한다.

3단계 — PPO(근위 정책 최적화)로 강화학습 보상 모델이 높은 점수를 주는 응답 방향으로 언어 모델을 강화학습으로 업데이트한다. 원래 모델 분포에서 너무 멀어지는 것을 방지하기 위해 KL 발산 페널티를 동시에 적용한다.

사용자 질문
    ↓
LLM → 응답 후보 A, B, C 생성
    ↓
보상 모델 → 각 응답에 점수 부여
    ↓
PPO 알고리즘 → 더 높은 점수 방향으로 모델 가중치 업데이트

한계와 진화하는 대안들

RLHF는 강력하지만 구조적 한계가 있다.

보상 해킹(Reward Hacking): 모델이 실제로 좋은 응답을 생성하는 대신, 보상 모델의 허점을 파고드는 방식으로 과적합될 수 있다. 보상 모델 자체가 완벽하지 않기 때문에 발생하는 문제다.

평가자 편향: 인간 평가자의 가치관·문화·언어 편향이 모델에 그대로 주입된다. 특정 문화권 편향이 모델 전체에 영향을 준다.

확장 비용: 고품질 인간 피드백 수집은 시간·비용이 크다. 데이터 규모에 따라 비용이 선형적으로 증가한다.

이를 극복하기 위한 대안 기법들이 등장했다.

RLAIF(AI 피드백 강화학습): 인간 대신 llm이 선호 데이터를 생성. Anthropic의 Constitutional AI가 대표 사례
DPO(Direct Preference Optimization): 보상 모델 없이 선호 비교 데이터를 직접 최적화. RLHF보다 학습 안정성이 높다
RLVR(Verifiable Reward RL): 수학·코드처럼 정답 검증이 가능한 도메인에서 자동 보상 신호 사용. DeepSeek-R1이 이 방식 채택

실제 적용 사례

ChatGPT(GPT-3.5 Turbo, GPT-4): OpenAI가 RLHF를 대규모 적용해 지시 따르기·안전성을 동시에 개선
Claude: Anthropic의 Constitutional AI — AI가 스스로 헌법적 원칙에 따라 응답을 비교·평가하는 RLAIF 변형 방식
Gemini: Google DeepMind의 선호 학습 파이프라인 적용
코드 생성 모델: 코드 실행 결과(테스트 통과 여부)를 보상 신호로 사용하는 RLVR 방식 확산 중

정의

작동 원리: 3단계 파이프라인

한계와 진화하는 대안들

실제 적용 사례

관련 용어