Show GN: HRPO-X v1.0.1 - 하이브리드 추론 최적화 프레임워크 구현체

1 month ago 8

TL;DR

HRPO는 latent 추론 + discrete 추론 토큰을 혼합하는 강화학습 기반 추론 기법
논문 수식 자체는 단순하지만, 실제 구현 시 불안정성·진동·분산 실패가 바로 발생
HRPO-X는 논문 충실도보다 운영 실패 모드 대응에 초점을 둔 독립 구현체

만들게 된 계기

기존 LLM 추론 연구는 출력된 Chain-of-Thought에 과도하게 의존
실제 서비스 환경에서는:
- 추론 과정을 노출할 필요 없음
- 오히려 노출이 리스크가 되는 경우 존재
HRPO는:
- latent reasoning을 기본으로 유지
- 필요 시에만 discrete reasoning token을 사용
문제:
- 논문 구현은 이상 조건만 가정
- 학습 초반, 분산 환경, 태스크 전환 시 쉽게 붕괴
- “논문 그대로 구현”은 바로 운영 불가 상태로 이어짐.

HRPO 논문 핵심 내용 요약

1. 문제 정의

추론을 “출력 토큰 생성”이 아니라
정책(policy)이 선택하는 행동으로 재정의

2. Hybrid Reasoning 구조

각 토큰 위치에서:
- latent 경로(hidden state)
- discrete 경로(explicit token)
게이팅 확률로 혼합 결정

3. 학습 방식

REINFORCE 기반 정책 최적화
KL divergence로 정책 붕괴 방지
Progressive incorporation:
- 초반: embedding 기반 행동 위주
- 후반: hidden-state 추론 비중 증가

HRPO-X에 실제로 포함된 것

1. Cold-start 안정화

고정 epsilon 스케줄 제거
학습 상태 기반 adaptive epsilon 적용
초반 policy collapse 방지

2. r_min 진동 억제

latent/discrete 비율 파라미터 진동 문제 대응
단순 clamp 대신 momentum 기반 완화

3. Ghost-mode Validation

소수 샘플 validation 신뢰도 문제 해결
bootstrap 기반 실패 분포 추정
“좋아 보임” 대신 통계적 신뢰 여부 판단

4. 분산 환경 파티션 대응

네트워크 파티션
worker 간 파라미터 불일치
replay buffer drift

5. Task-shift 적응

태스크 분포 변경 시 고정 하이퍼파라미터 문제 대응
task-aware r_min blending 적용

레포지토리에 포함된 것

HRPO 최소 core 구현
안정성 패치 모듈
pytest 기반 테스트 코드
단일 실행 데모 스크립트
아키텍처 및 설계 문서

누구에게 필요한가

latent reasoning / CoT 비노출 추론에 관심 있는 연구자
RLHF / PPO 이후 구조를 탐색 중인 ML 엔지니어
논문 아이디어를 직접 실행 가능한 코드로 검증하려는 개발자
분산 RL 학습 환경을 다루는 엔지니어
“논문 구현”과 “운영 가능한 구현”의 차이를 확인하려는 경우

링크

GitHub (HRPO-X):
https://github.com/flamehaven01/HRPO-X
HRPO 논문 (arXiv):
https://arxiv.org/abs/2505.18454
원 저자 구현체:
https://github.com/Yueeeeeeee/HRPO

이 작업이 누군가에게 작은 참고 자료가 된다면 충분합니다 ❤️
기존 RLHF / PPO 파이프라인과 비교하며 보셔도 도움이 될 수 있습니다
재현 과정에서의 관찰, 실패 사례, 개선 아이디어는 GitHub Issues로 남겨주시면 큰 힘이 됩니다 💪

Read Entire Article