TL;DR
- HRPO는 latent 추론 + discrete 추론 토큰을 혼합하는 강화학습 기반 추론 기법
- 논문 수식 자체는 단순하지만, 실제 구현 시 불안정성·진동·분산 실패가 바로 발생
- HRPO-X는 논문 충실도보다 운영 실패 모드 대응에 초점을 둔 독립 구현체
만들게 된 계기
- 기존 LLM 추론 연구는 출력된 Chain-of-Thought에 과도하게 의존
- 실제 서비스 환경에서는:
- 추론 과정을 노출할 필요 없음
- 오히려 노출이 리스크가 되는 경우 존재
- HRPO는:
-
latent reasoning을 기본으로 유지
- 필요 시에만 discrete reasoning token을 사용
- 문제:
- 논문 구현은 이상 조건만 가정
- 학습 초반, 분산 환경, 태스크 전환 시 쉽게 붕괴
- “논문 그대로 구현”은 바로 운영 불가 상태로 이어짐.
HRPO 논문 핵심 내용 요약
1. 문제 정의
- 추론을 “출력 토큰 생성”이 아니라
-
정책(policy)이 선택하는 행동으로 재정의
2. Hybrid Reasoning 구조
- 각 토큰 위치에서:
- latent 경로(hidden state)
- discrete 경로(explicit token)
-
게이팅 확률로 혼합 결정
3. 학습 방식
- REINFORCE 기반 정책 최적화
- KL divergence로 정책 붕괴 방지
- Progressive incorporation:
- 초반: embedding 기반 행동 위주
- 후반: hidden-state 추론 비중 증가
HRPO-X에 실제로 포함된 것
1. Cold-start 안정화
- 고정 epsilon 스케줄 제거
- 학습 상태 기반 adaptive epsilon 적용
- 초반 policy collapse 방지
2. r_min 진동 억제
- latent/discrete 비율 파라미터 진동 문제 대응
- 단순 clamp 대신 momentum 기반 완화
3. Ghost-mode Validation
- 소수 샘플 validation 신뢰도 문제 해결
- bootstrap 기반 실패 분포 추정
- “좋아 보임” 대신 통계적 신뢰 여부 판단
4. 분산 환경 파티션 대응
- 네트워크 파티션
- worker 간 파라미터 불일치
- replay buffer drift
5. Task-shift 적응
- 태스크 분포 변경 시 고정 하이퍼파라미터 문제 대응
- task-aware r_min blending 적용
레포지토리에 포함된 것
- HRPO 최소 core 구현
- 안정성 패치 모듈
- pytest 기반 테스트 코드
- 단일 실행 데모 스크립트
- 아키텍처 및 설계 문서
누구에게 필요한가
-
latent reasoning / CoT 비노출 추론에 관심 있는 연구자
- RLHF / PPO 이후 구조를 탐색 중인 ML 엔지니어
- 논문 아이디어를 직접 실행 가능한 코드로 검증하려는 개발자
- 분산 RL 학습 환경을 다루는 엔지니어
- “논문 구현”과 “운영 가능한 구현”의 차이를 확인하려는 경우
링크
- 이 작업이 누군가에게 작은 참고 자료가 된다면 충분합니다 ❤️
- 기존 RLHF / PPO 파이프라인과 비교하며 보셔도 도움이 될 수 있습니다
- 재현 과정에서의 관찰, 실패 사례, 개선 아이디어는 GitHub Issues로 남겨주시면 큰 힘이 됩니다 💪