Google Titans 아키텍처, AI의 장기 기억 형성 지원

3 days ago 2

Titans 아키텍처와 MIRAS 프레임워크는 AI 모델이 실행 중에도 핵심 메모리를 갱신하며 방대한 문맥을 빠르게 처리하도록 설계된 구조
Titans는 RNN의 속도와 Transformer의 정확도를 결합해, 입력 중 ‘놀라움(surprise)’이 큰 정보를 장기 기억에 선택적으로 저장
MIRAS는 다양한 시퀀스 모델을 통합적으로 해석하는 이론적 설계도로, 메모리 구조·편향·망각·최적화 과정을 체계화
실험 결과, Titans와 MIRAS 변형 모델(YAAD, MONETA, MEMORA)은 Transformer++·Mamba-2 등 최신 모델보다 긴 문맥 처리와 효율성에서 우수한 성능을 보임
이 연구는 RNN의 효율성과 Transformer의 표현력을 결합한 새로운 세대의 장기 문맥 AI 모델로의 전환을 보여줌

Titans와 MIRAS 개요

Titans 아키텍처와 MIRAS 프레임워크는 AI가 실행 중 실시간으로 메모리를 갱신하며 대규모 문맥을 처리하도록 설계
- 기존 Transformer의 주의(attention) 메커니즘은 시퀀스 길이에 따라 계산 비용이 급증
- Titans와 MIRAS는 이러한 한계를 극복해 장기 문맥 이해와 실시간 적응을 가능하게 함
Titans는 구체적 모델 구조, MIRAS는 이를 일반화한 이론적 청사진 역할
- 두 시스템은 테스트 시점 기억(test-time memorization) 개념을 발전시켜, 재학습 없이 실행 중 새로운 정보를 통합

Titans: 실시간 문맥 학습

Titans는 단기 기억(주의 메커니즘) 과 장기 기억(신경망 기반 모듈) 을 분리해 인간의 기억 구조를 모방
- 장기 기억 모듈은 다층 퍼셉트론(MLP) 형태로, 고정 벡터 대신 심층 신경망을 사용해 더 풍부한 정보 요약 가능
핵심 개념은 ‘놀라움 지표(surprise metric)’
- 입력이 기존 기억과 크게 다를수록 높은 놀라움으로 간주되어 장기 기억에 저장
- 예: 예상된 단어(‘cat’)는 낮은 놀라움, 예상 밖 입력(‘banana peel’)은 높은 놀라움으로 처리
Titans는 모멘텀(momentum) 과 망각(weight decay) 메커니즘을 결합
- 모멘텀은 최근 맥락의 연속성을 반영해 관련 정보도 함께 저장
- 망각은 불필요한 정보를 제거해 메모리 용량을 효율적으로 유지

MIRAS: 시퀀스 모델의 통합적 관점

MIRAS는 모든 시퀀스 모델을 연상 기억(associative memory) 시스템으로 해석
- 다양한 모델이 결국 ‘새 정보와 기존 기억을 효율적으로 결합’하는 동일 문제를 해결한다고 정의
MIRAS는 네 가지 설계 요소로 모델을 정의
- 메모리 구조: 정보 저장 형태 (벡터, 행렬, MLP 등)
- 주의 편향: 모델이 어떤 정보를 우선시하는지 결정
- 보존 게이트(retention gate) : 망각을 조절하는 정규화 방식
- 메모리 알고리듬: 메모리 갱신 최적화 방법
기존 모델이 평균제곱오차(MSE) 나 내적 유사도에 의존하는 한계를 넘어, 비유클리드(non-Euclidean) 목적함수와 정규화를 탐색

MIRAS 기반 모델들

YAAD: Huber loss를 사용해 입력 오류나 이상치에 덜 민감한 구조
MONETA: 일반화된 노름(generalized norms)을 적용해 안정적 장기 기억 유지
MEMORA: 메모리를 확률 지도처럼 제약해 균형 잡힌 정보 통합 보장
세 모델 모두 주의(attention) 없이도 강력한 장기 기억 성능을 달성

실험 결과 및 성능

Titans와 MIRAS 변형 모델은 Transformer++ , Mamba-2, Gated DeltaNet 등 최신 구조와 비교 평가
- 언어 모델링(C4, WikiText) 과 제로샷 추론(HellaSwag, PIQA) 에서 더 높은 정확도와 낮은 perplexity 달성
- 유전체(DNA) 모델링과 시계열 예측에서도 일반화 성능 입증
기억 깊이(Depth) 가 성능에 결정적 영향
- 동일 크기의 메모리라도 깊은 구조일수록 낮은 perplexity와 더 나은 확장성 확보
효율성 측면에서, Titans는 병렬 학습과 선형 추론 속도를 유지하며 기존 모델보다 빠른 처리 가능
BABILong 벤치마크에서 GPT-4보다 적은 파라미터로도 긴 문맥 추론에서 우수한 성능
- 최대 200만 토큰 이상의 문맥 창을 효과적으로 처리

결론

Titans와 MIRAS는 고정 크기 순환 상태의 한계를 극복하고, 데이터 입력 중 실시간으로 학습하는 새로운 메모리 구조 제시
MIRAS는 온라인 최적화·연상 기억·아키텍처 설계를 통합하는 강력한 이론적 틀 제공
비유클리드적 설계 공간을 통해 RNN의 효율성과 Transformer의 표현력을 결합한 장기 문맥 AI 모델 시대를 여는 기반 마련

Read Entire Article