Show GN: PonderTTT - TTT 기반 적응형 연산 할당

1 month ago 10

안녕하세요, 고등학생 독립 연구로 진행한 첫 arXiv 논문입니다.

Paper | Code

핵심 아이디어:
LLM이 쉬운 입력과 어려운 입력에 동일한 연산을 쓰는 게 비효율적이라, TTT 레이어의 reconstruction loss를 신호로 UPDATE/SKIP을 결정합니다.
별도 학습 없이 threshold + EMA만으로 Oracle 대비 82-89% 성능을 달성했습니다.

JAX/Flax로 구현했고, 현재 Gemma 3로 스케일업 검증 중입니다.

피드백 환영합니다!

Read Entire Article