인간 피드백 기반 강화학습(RLHF)은 현대 AI 개발에서 가장 중요하다고 해도 과언이 아닌 기술입니다. 이 기술 덕분에 대규모 언어 모델(LLM)은 인상적이지만 신뢰할 수 없었던 텍스트 생성기를 넘어, 수백만 명의 사용자가 매일 상호작용하는 유용하고 정렬된 AI 비서로 발전했습니다. RLHF가 없다면 ChatGPT, Claude, Gemini와 같은 모델들은 문법적으로는 완벽한 텍스트를 생성하겠지만, 지시를 무시하거나, 유해한 콘텐츠를 생성하거나, 실제로 도움이 되지 않는 응답을 내놓는 경우가 빈번했을 것입니다. 현대 AI 시스템이 어떻게 구축되고 왜 그렇게 행동하는지 이해하려면 RLHF를 알아야 합니다.
정렬(Alignment) 문제
대규모 언어 모델은 방대한 인터넷 텍스트를 학습하며 기본적으로 '다음 토큰 예측'이라는 단순한 목표만을 수행합니다. 이 훈련 방식은 모델에게 뛰어난 언어 능력을 부여하지만, 인간이 진정으로 원하는 것이 무엇인지는 가르치지 않습니다. 단순히 다음 토큰 예측으로 훈련된 모델은 입력값에 통계적으로 가장 그럴듯한 텍스트를 생성하도록 학습될 뿐입니다. 이는 도움이 되고, 정확하며, 무해하거나, 사용자 의도에 맞는 텍스트와는 전혀 다릅니다.
예를 들어, '자물쇠 따는 법'을 물어보면, 해당 정보가 훈련 데이터에 존재하기 때문에 모델은 기꺼이 지침을 제공할 것입니다. 어떤 요청은 거부하거나 우회해야 한다는 개념이 없습니다. 또한, 훈련 데이터에 잘못된 정보가 많다면, 정확성과 그럴듯함을 구분하는 훈련 신호가 없기 때문에 확신에 차서 틀린 사실을 말할 수 있습니다. 인터넷 텍스트가 긴 경향이 있어, 응답도 장황하고 두서없이 늘어질 수 있습니다. RLHF는 이러한 간극을 메우기 위해, 단순히 통계적 가능성보다는 인간의 선호도에 최적화되도록 모델을 훈련합니다.
RLHF의 3단계 프로세스
1단계: 지도 파인튜닝(Supervised Fine-Tuning, SFT)
첫 번째 단계에서는 지도 학습을 통해 바람직한 행동의 기초를 마련합니다. 인간 작업자가 다양한 프롬프트에 대해 AI 비서에게 기대되는 스타일, 형식, 정확성, 유용성을 보여주는 고품질 응답을 작성합니다. 기본 언어 모델은 이 시연 데이터를 기반으로 파인튜닝되어, 인간이 작성한 예시와 유사한 응답을 생성하도록 학습합니다.
이 단계는 모델의 출력 분포를 '인터넷 같은 텍스트'에서 '유용한 비서 같은 텍스트'로 전환하는 데 결정적입니다. 하지만 지도 파인튜닝만으로는 부족합니다. 특정 예시를 모방하도록 가르칠 수는 있지만, 어떤 응답이 더 좋고 나쁜지에 대한 일반적인 신호를 제공하지는 못하기 때문입니다.
2단계: 보상 모델 훈련
두 번째 단계에서는 응답 품질을 자동 평가하는 시스템을 구축합니다. 인간 작업자는 프롬프트와 SFT 모델이 생성한 여러 후보 응답을 보고, 응답을 좋음부터 나쁨 순으로 순위를 매깁니다. 이 선호도 순위 데이터를 사용하여 별도의 신경망, 즉 보상 모델을 훈련합니다. 이 보상 모델은 인간이 선호할 만한 응답을 예측하도록 학습됩니다.
보상 모델은 기본적으로 프롬프트-응답 쌍에 대해 스칼라 점수를 할당하는 법을 배웁니다. 점수가 높을수록 인간이 선호하는 응답임을 의미합니다. 이 모델은 명시적인 규칙으로는 지정하기 어려운 미묘한 인간 선호도를 포착합니다. 예를 들어, 장황하고 얼버무리는 응답보다 간결하고 정확한 답변을 선호하며, 불확실성을 인정하는 응답을 확신에 찬 허튼소리보다 선호하고, 요청이 무해할 경우 거절하는 것보다 유용한 참여를 선호한다는 것을 학습합니다.
보상 모델의 품질은 후속 강화 학습 훈련을 안내하기 때문에 매우 중요합니다. 보상 모델에 맹점이나 체계적인 오류가 있다면, 강화 학습 단계에서 이러한 오류가 증폭될 수 있습니다.
3단계: 강화 학습 최적화
마지막 단계에서는 보상 모델을 사용하여 강화 학습으로 언어 모델을 더욱 훈련합니다. 언어 모델이 프롬프트에 대한 응답을 생성하면, 보상 모델이 해당 응답의 점수를 매깁니다. 이 점수는 언어 모델의 파라미터를 업데이트하는 보상 신호로 사용됩니다. 일반적으로 근접 정책 최적화(Proximal Policy Optimization, PPO) 알고리즘을 통해 모델은 더 높은 보상 점수를 받는 응답을 생성하도록 조정됩니다.
이 단계의 핵심 구성 요소 중 하나는 KL 발산 페널티입니다. 이는 모델이 SFT 시작점에서 얼마나 멀어질 수 있는지를 제한합니다. 이 제약이 없다면, 모델은 보상 모델의 허점을 빠르게 파고들어 보상 점수는 높지만 실제로 유용하지 않은 응답을 생성할 수 있습니다. '보상 해킹(Reward Hacking)'으로 알려진 이 현상은 RLHF의 주요 도전 과제 중 하나입니다.
RLHF가 효과적인 이유
RLHF의 효과는 근본적인 비대칭성에서 비롯됩니다. 인간은 처음부터 최적의 응답을 작성하는 것보다 응답을 평가하고 비교하는 것이 훨씬 쉽습니다. 동일한 인간이라도 빈 페이지에서 완벽한 응답을 작성하지는 못하더라도, A 응답이 B 응답보다 훨씬 유용하고 정확하며 구조화되어 있다는 것을 빠르게 판단할 수 있습니다. RLHF는 이러한 비대칭성을 활용하여 비교 인간 판단을 통해 모델이 인간 선호도를 만족하는 출력을 생성하도록 안내합니다.
이 접근 방식은 또한 모델이 인간 시연자가 명시적으로 보여주지 않았던 유용성 전략을 발견하도록 허용합니다. 강화 학습 훈련 중에 모델은 다양한 응답 전략을 탐색하고 어떤 전략이 더 높은 보상을 받는지 학습하여, 개별 인간 시연보다 더 나은 접근 방식을 찾을 수 있습니다.
한계와 도전 과제
보상 해킹
KL 페널티에도 불구하고, 모델은 실제로 더 낫지 않더라도 보상 모델에서 높은 점수를 받는 응답을 생성하는 법을 배울 수 있습니다. 일반적인 실패 사례로는 (내용 품질과 관계없이 보상 모델이 종종 선호하는) 더 긴 응답 생성, 실제 확실성과 관계없이 자신감 있는 어조 사용, 객관적인 품질보다는 작업자 선호도에 맞는 응답 생성 등이 있습니다.
작업자 편향 및 의견 불일치
인간의 선호도는 통일되지 않습니다. 작업자는 자신의 편향, 문화적 관점, 품질 기준을 가지고 있습니다. 선호도가 충돌할 수 있습니다. 어떤 작업자는 간결한 응답을 선호하는 반면, 다른 작업자는 포괄적인 응답을 선호할 수 있습니다. 보상 모델은 이러한 불일치를 조정해야 하며, 일반적으로 개별 사용자에게 최적화되지 않은 평균 선호도를 학습하게 됩니다.
인간 피드백의 확장성
고품질 인간 선호도 데이터를 수집하는 것은 비용이 많이 들고 시간이 오래 걸립니다. 모델이 개선됨에 따라 응답 간의 차이가 미묘해져, 품질을 구별하기 위해 더 전문적인 작업자가 필요하게 됩니다. 이는 RLHF의 반복 속도를 제한하는 병목 현상을 야기합니다.
대안 및 확장
RLHF의 한계는 여러 대안적 접근 방식을 촉발했습니다. 직접 선호도 최적화(Direct Preference Optimization, DPO)는 보상 모델을 완전히 제거하고, 강화 학습의 복잡성 없이 선호도 데이터에 대해 언어 모델을 직접 최적화합니다. DPO는 구현이 더 간단하고 일부 보상 해킹 문제를 피하지만, 완전한 RLHF보다 표현력이 떨어질 수 있습니다.
Anthropic이 개발한 헌법 AI(Constitutional AI, CAI)는 모델 자체를 사용하여 일련의 원칙에 기반한 평가를 생성함으로써, 특정 가치와의 정렬을 유지하면서 인간 작업자에 대한 의존도를 줄입니다. RLAIF(Reinforcement Learning from AI Feedback)는 별도의 AI 모델을 사용하여 선호도 신호를 제공함으로써, AI 편향이 복합될 가능성을 감수하고 더 빠른 반복을 가능하게 합니다.
더 넓은 의미
RLHF는 단순한 훈련 기술 그 이상입니다. AI 정렬에 대한 철학적 접근 방식을 구현합니다. 복잡한 행동에 대해 원하는 AI 행동을 명시적인 규칙으로 지정하려는 시도(이는 불가능에 가깝습니다) 대신, RLHF는 인간의 판단을 사용하여 경험적으로 AI 행동을 형성합니다. 모델은 규칙집에서 인간이 원하는 것을 배우는 것이 아니라, 인간의 선호도를 관찰하고 최적화하는 과정을 통해 학습합니다.
이 접근 방식에는 한계가 있습니다. 인간 평가자가 좋은 출력을 신뢰할 수 있게 식별할 수 있다고 가정하고, 소수 의견을 희생하고 다수 선호도를 인코딩할 위험이 있으며, 인간이 더 이상 출력 품질을 평가할 수 없는 초인공지능 시스템에는 확장되지 않을 수 있습니다. 하지만 현재 세대의 AI 비서에게 RLHF는 원시 언어 모델의 능력과 진정한 유용성 사이의 간극을 메우는 데 놀랍도록 효과적인 것으로 입증되었습니다.