재귀적 언어 모델 (Recursive Language Models)

1 month ago 11

  • 대규모 언어 모델(LLM) 이 매우 긴 입력 프롬프트를 처리할 수 있도록 하는 새로운 추론 전략 RLM(Recursive Language Model) 이 제안됨
  • RLM은 긴 프롬프트를 외부 환경의 일부로 간주하고, 모델이 이를 프로그래밍적으로 탐색·분해·재귀 호출할 수 있게 함
  • 이 방식은 기존 컨텍스트 윈도 한계를 초월하여 최대 수천만 토큰 규모의 입력을 처리하며, 기존 LLM 대비 품질이 크게 향상
  • 실험 결과, GPT-5 및 Qwen3-Coder 기반 RLM은 다양한 장문 과제에서 두 자릿수 성능 향상을 보이며, 비용은 비슷하거나 더 낮음
  • 긴 문맥 처리 한계를 극복하고 LLM의 추론 능력을 대폭 확장할 수 있는 일반적 접근법으로 평가됨

RLM 개요

  • Recursive Language Model(RLM) 은 LLM이 긴 입력을 직접 신경망에 넣지 않고, 이를 외부 환경의 변수로 취급해 상호작용하도록 설계
    • 입력 프롬프트 P를 Python REPL 환경의 변수로 로드하고, LLM이 코드로 이를 탐색·분해·재귀 호출하도록 함
    • LLM은 REPL 환경의 상태(예: 문자열 길이)를 인식하고, 코드 실행의 부작용을 관찰하며 점진적으로 문제를 해결
  • 이 구조는 기존의 문맥 압축(compaction) 이나 요약 기반 접근법이 세부 정보를 잃는 문제를 해결함
  • RLM은 입력과 출력 길이를 모두 확장할 수 있는 일반적 추론 패러다임으로 제시됨

기존 접근법의 한계

  • 기존 LLM은 컨텍스트 윈도우 한계로 인해 긴 입력에서 성능이 급격히 저하되는 context rot 현상을 보임
  • 문맥 압축(compaction) 기법은 일정 길이를 넘으면 요약을 반복하지만, 세밀한 정보 접근이 필요한 작업에는 부적합
  • RLM은 프롬프트를 외부 객체로 다루어 입력 크기를 모델 한계 이상으로 확장할 수 있음

실험 설정

  • 평가 모델: GPT-5(OpenAI, 2025)Qwen3-Coder-480B-A35B(Team, 2025)
  • 비교 대상:
    • 기본 LLM 직접 호출
    • 요약 에이전트(Summary agent)
    • CodeAct + BM25 검색 기반 에이전트
    • RLM(REPL 환경 포함)RLM(REPL, 재귀 호출 없음)
  • GPT-5 실험에서는 GPT-5-mini를 재귀 호출용으로, GPT-5를 루트 모델로 사용해 성능과 비용의 균형 확보

평가 과제

  • S-NIAH: 단일 ‘needle-in-a-haystack’ 문제, 입력 길이에 관계없이 일정한 처리 비용
  • BrowseComp-Plus: 여러 문서를 넘나드는 multi-hop 질의응답 과제, 1000개 문서 중 정답 포함
  • OOLONG: 입력의 거의 모든 항목을 의미적으로 변환·통합해야 하는 장문 추론 과제, 처리 비용이 입력 길이에 선형 비례
  • OOLONG-Pairs: OOLONG 변형으로, 쌍 단위 정보 결합이 필요하며 처리 비용이 입력 길이에 제곱 비례
  • LongBench-v2 CodeQA: 코드 저장소 이해를 요구하는 다중 선택형 과제, 최신 모델에도 어려운 문제

주요 결과

  • RLM은 GPT-5 대비 긴 문맥에서도 성능 저하가 거의 없음
    • GPT-5는 입력 길이와 과제 복잡도 증가에 따라 급격히 성능 하락
    • RLM은 272K 토큰 한계를 초과하는 입력(최대 10M+ 토큰) 도 효과적으로 처리
  • 모든 장문 과제에서 RLM이 다른 방법 대비 두 자릿수 성능 향상을 보임
  • 비용 효율성도 유지되어, 동일 쿼리당 비용이 기존 접근법과 유사하거나 더 낮음

장문 과제의 복잡도 분석

  • LLM의 실질적 컨텍스트 윈도우는 물리적 한계보다 과제 복잡도에 따라 더 짧아질 수 있음
    • 단순한 NIAH 문제는 1M+ 토큰에서도 해결 가능
    • 복잡한 OOLONG류 과제는 훨씬 짧은 길이에서도 성능 저하 발생
  • 따라서 과제의 정보 밀도와 입력 길이의 상관관계를 함께 고려해야 함

결론

  • RLM은 LLM의 추론 능력을 재귀적으로 확장하여, 기존 모델이 처리할 수 없는 초장문 입력을 다룰 수 있게 함
  • 프롬프트를 환경 객체로 다루는 설계가 핵심 혁신으로, 장문 처리의 구조적 한계를 해결
  • 다양한 모델과 과제에서 성능·비용·확장성의 균형을 달성한 일반적 추론 프레임워크로 제시됨

Read Entire Article