Google Titans 아키텍처, AI의 장기 기억 형성 지원

3 days ago 2

  • Titans 아키텍처와 MIRAS 프레임워크는 AI 모델이 실행 중에도 핵심 메모리를 갱신하며 방대한 문맥을 빠르게 처리하도록 설계된 구조
  • Titans는 RNN의 속도와 Transformer의 정확도를 결합해, 입력 중 ‘놀라움(surprise)’이 큰 정보를 장기 기억에 선택적으로 저장
  • MIRAS는 다양한 시퀀스 모델을 통합적으로 해석하는 이론적 설계도로, 메모리 구조·편향·망각·최적화 과정을 체계화
  • 실험 결과, Titans와 MIRAS 변형 모델(YAAD, MONETA, MEMORA)은 Transformer++·Mamba-2 등 최신 모델보다 긴 문맥 처리와 효율성에서 우수한 성능을 보임
  • 이 연구는 RNN의 효율성과 Transformer의 표현력을 결합한 새로운 세대의 장기 문맥 AI 모델로의 전환을 보여줌

Titans와 MIRAS 개요

  • Titans 아키텍처와 MIRAS 프레임워크는 AI가 실행 중 실시간으로 메모리를 갱신하며 대규모 문맥을 처리하도록 설계
    • 기존 Transformer의 주의(attention) 메커니즘은 시퀀스 길이에 따라 계산 비용이 급증
    • Titans와 MIRAS는 이러한 한계를 극복해 장기 문맥 이해와 실시간 적응을 가능하게 함
  • Titans는 구체적 모델 구조, MIRAS는 이를 일반화한 이론적 청사진 역할
    • 두 시스템은 테스트 시점 기억(test-time memorization) 개념을 발전시켜, 재학습 없이 실행 중 새로운 정보를 통합

Titans: 실시간 문맥 학습

  • Titans는 단기 기억(주의 메커니즘)장기 기억(신경망 기반 모듈) 을 분리해 인간의 기억 구조를 모방
    • 장기 기억 모듈은 다층 퍼셉트론(MLP) 형태로, 고정 벡터 대신 심층 신경망을 사용해 더 풍부한 정보 요약 가능
  • 핵심 개념은 ‘놀라움 지표(surprise metric)’
    • 입력이 기존 기억과 크게 다를수록 높은 놀라움으로 간주되어 장기 기억에 저장
    • 예: 예상된 단어(‘cat’)는 낮은 놀라움, 예상 밖 입력(‘banana peel’)은 높은 놀라움으로 처리
  • Titans는 모멘텀(momentum)망각(weight decay) 메커니즘을 결합
    • 모멘텀은 최근 맥락의 연속성을 반영해 관련 정보도 함께 저장
    • 망각은 불필요한 정보를 제거해 메모리 용량을 효율적으로 유지

MIRAS: 시퀀스 모델의 통합적 관점

  • MIRAS는 모든 시퀀스 모델을 연상 기억(associative memory) 시스템으로 해석
    • 다양한 모델이 결국 ‘새 정보와 기존 기억을 효율적으로 결합’하는 동일 문제를 해결한다고 정의
  • MIRAS는 네 가지 설계 요소로 모델을 정의
    • 메모리 구조: 정보 저장 형태 (벡터, 행렬, MLP 등)
    • 주의 편향: 모델이 어떤 정보를 우선시하는지 결정
    • 보존 게이트(retention gate) : 망각을 조절하는 정규화 방식
    • 메모리 알고리듬: 메모리 갱신 최적화 방법
  • 기존 모델이 평균제곱오차(MSE)내적 유사도에 의존하는 한계를 넘어, 비유클리드(non-Euclidean) 목적함수와 정규화를 탐색

MIRAS 기반 모델들

  • YAAD: Huber loss를 사용해 입력 오류나 이상치에 덜 민감한 구조
  • MONETA: 일반화된 노름(generalized norms)을 적용해 안정적 장기 기억 유지
  • MEMORA: 메모리를 확률 지도처럼 제약해 균형 잡힌 정보 통합 보장
  • 세 모델 모두 주의(attention) 없이도 강력한 장기 기억 성능을 달성

실험 결과 및 성능

  • Titans와 MIRAS 변형 모델은 Transformer++ , Mamba-2, Gated DeltaNet 등 최신 구조와 비교 평가
    • 언어 모델링(C4, WikiText)제로샷 추론(HellaSwag, PIQA) 에서 더 높은 정확도와 낮은 perplexity 달성
    • 유전체(DNA) 모델링시계열 예측에서도 일반화 성능 입증
  • 기억 깊이(Depth) 가 성능에 결정적 영향
    • 동일 크기의 메모리라도 깊은 구조일수록 낮은 perplexity와 더 나은 확장성 확보
  • 효율성 측면에서, Titans는 병렬 학습과 선형 추론 속도를 유지하며 기존 모델보다 빠른 처리 가능
  • BABILong 벤치마크에서 GPT-4보다 적은 파라미터로도 긴 문맥 추론에서 우수한 성능
    • 최대 200만 토큰 이상의 문맥 창을 효과적으로 처리

결론

  • Titans와 MIRAS는 고정 크기 순환 상태의 한계를 극복하고, 데이터 입력 중 실시간으로 학습하는 새로운 메모리 구조 제시
  • MIRAS는 온라인 최적화·연상 기억·아키텍처 설계를 통합하는 강력한 이론적 틀 제공
  • 비유클리드적 설계 공간을 통해 RNN의 효율성과 Transformer의 표현력을 결합한 장기 문맥 AI 모델 시대를 여는 기반 마련

Read Entire Article