Home / AI / AI 용어사전 / RLHF — 인간 피드백으로 AI를 정렬하는 학습법
TERM
RLHF — 인간 피드백으로 AI를 정렬하는 학습법
On this page
ChatGPT가 단순히 "다음 단어를 예측하는 모델"이 아니라 "사람이 원하는 방식으로 대화하는 AI"로 진화한 핵심에 RLHF가 있다. AI가 유해한 요청을 거절하고, 지시를 정확히 따르고, 공손하게 대답하는 행동 방식 전체가 이 학습법에서 비롯된다.
정의
RLHF(Reinforcement Learning from Human Feedback)는 인간 평가자의 선호 데이터를 활용해 언어 모델을 정렬(alignment)하는 학습 방법이다. 기존 사전학습 모델이 텍스트 예측에 집중한다면, RLHF는 "사람이 더 선호하는 응답"을 강화학습으로 내면화시킨다.
한글 별칭: 인간 피드백 강화학습 / 인간 피드백으로 학습하는 강화학습 원어: Reinforcement Learning from Human Feedback
작동 원리: 3단계 파이프라인
RLHF는 세 단계로 구성된다.
1단계 — 지도 학습 미세조정(SFT) 사전학습된 llm을 인간이 직접 작성한 예시 응답으로 미세조정한다. 모델은 이 단계에서 기본적인 지시 따르기 능력을 획득한다.
2단계 — 보상 모델(Reward Model) 학습 인간 평가자가 같은 질문에 대한 여러 모델 응답을 비교·순위화한다. 이 선호 비교 데이터를 바탕으로 "어떤 응답이 더 좋은지" 점수를 매기는 보상 모델을 별도로 학습한다.
3단계 — PPO(근위 정책 최적화)로 강화학습 보상 모델이 높은 점수를 주는 응답 방향으로 언어 모델을 강화학습으로 업데이트한다. 원래 모델 분포에서 너무 멀어지는 것을 방지하기 위해 KL 발산 페널티를 동시에 적용한다.
사용자 질문
↓
LLM → 응답 후보 A, B, C 생성
↓
보상 모델 → 각 응답에 점수 부여
↓
PPO 알고리즘 → 더 높은 점수 방향으로 모델 가중치 업데이트한계와 진화하는 대안들
RLHF는 강력하지만 구조적 한계가 있다.
보상 해킹(Reward Hacking): 모델이 실제로 좋은 응답을 생성하는 대신, 보상 모델의 허점을 파고드는 방식으로 과적합될 수 있다. 보상 모델 자체가 완벽하지 않기 때문에 발생하는 문제다.
평가자 편향: 인간 평가자의 가치관·문화·언어 편향이 모델에 그대로 주입된다. 특정 문화권 편향이 모델 전체에 영향을 준다.
확장 비용: 고품질 인간 피드백 수집은 시간·비용이 크다. 데이터 규모에 따라 비용이 선형적으로 증가한다.
이를 극복하기 위한 대안 기법들이 등장했다.
- RLAIF(AI 피드백 강화학습): 인간 대신 llm이 선호 데이터를 생성. Anthropic의 Constitutional AI가 대표 사례
- DPO(Direct Preference Optimization): 보상 모델 없이 선호 비교 데이터를 직접 최적화. RLHF보다 학습 안정성이 높다
- RLVR(Verifiable Reward RL): 수학·코드처럼 정답 검증이 가능한 도메인에서 자동 보상 신호 사용. DeepSeek-R1이 이 방식 채택
실제 적용 사례
- ChatGPT(GPT-3.5 Turbo, GPT-4): OpenAI가 RLHF를 대규모 적용해 지시 따르기·안전성을 동시에 개선
- Claude: Anthropic의 Constitutional AI — AI가 스스로 헌법적 원칙에 따라 응답을 비교·평가하는 RLAIF 변형 방식
- Gemini: Google DeepMind의 선호 학습 파이프라인 적용
- 코드 생성 모델: 코드 실행 결과(테스트 통과 여부)를 보상 신호로 사용하는 RLVR 방식 확산 중
관련 용어
- llm — RLHF의 기반이 되는 대형 언어 모델
- fine-tuning — 사전학습 모델을 특정 목적에 맞게 추가 학습
- alignment — AI를 인간 가치·의도에 맞게 정렬하는 연구 분야
- prompt-engineering — 모델 가중치 변경 없이 프롬프트로 동작을 조정하는 방법