[2026/06/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음

1 hour ago 1

PyTorchKR🔥🇰🇷 🤔💭

이번 주 선정된 10편의 논문들을 살펴보면, 대규모 언어 모델(LLM) 기반 에이전트의 상태 관리, 추론 효율화, 그리고 실제 환경에서의 안전성과 검증 가능성을 중심으로 빠르게 수렴하고 있습니다. 특히, 에이전트의 효율성을 극대화하는 구조적 변화부터 트랜스포머 아키텍처의 근본적인 재설계, 그리고 현실 세계의 동적 환경에 적응하는 강건성 확보까지 흥미로운 연구 흐름을 확인할 수 있었습니다.

:one: 에이전트 워크플로의 혁신: 상태의 외부화와 추론 논리의 내재화(Internalization) 이번 주 논문들에서는 에이전트가 복잡하고 긴 작업을 수행할 때 발생하는 비용과 컨텍스트 병목을 해결하기 위한 두 가지 상반되면서도 상호 보완적인 접근이 두드러졌습니다. Harness-1AdaCoM은 에이전트가 기억해야 할 상태나 컨텍스트 관리 부담을 외부 환경이나 별도의 관리 모델로 덜어내어 긴 호흡의 작업 안정성을 높였습니다. 반면, Latent Agents에이전틱 워크플로 내재화(Subterranean Agents) 연구는 외부 오케스트레이터나 다중 에이전트 간의 복잡한 통신 과정을 아예 단일 모델의 가중치(Weights) 내부로 컴파일하는 사후학습을 제안했습니다. 이를 통해 모델은 프롬프트나 외부 조율에 의존하지 않고도 스스로 토론하거나 절차적 추론을 수행할 수 있게 되어, 프런티어 모델급 성능을 유지하면서도 추론 비용과 토큰 사용량을 혁신적으로 절감하는 방향을 제시하고 있습니다.

:two: 기초 아키텍처의 재설계: 어텐션 메커니즘의 융합과 파라미터 최적화 트랜스포머의 근본적인 연산 비효율성을 극복하고 메모리 사용량을 줄이려는 기초 연구도 강력한 트렌드입니다. SISA(Forget Attention) 논문은 상태 공간 모델(SSM)의 순차적 중요도 신호를 어텐션 점수 계산에 직접 주입하는 '점수 수준 융합'을 통해, 전역 검색 능력과 순차적 우선순위 판단을 동시에 달성했습니다. 또한 QKV 변형 연구(Do Transformers Need Three Projections?)는 쿼리, 키, 밸류를 모두 분리하는 기존의 당연한 표준에 의문을 제기하며, 키와 밸류를 공유하는 투영 방식(Q-K=V)이 성능 저하를 최소화하면서도 KV 캐시를 대폭 줄일 수 있음을 실증적으로 증명했습니다. 이러한 아키텍처 수준의 구조적 개선은 단순한 성능 향상을 넘어, 제한된 메모리를 가진 엣지 디바이스나 온디바이스 AI 환경에서의 실용적인 배포 가능성을 크게 열어주고 있습니다.

:three: 동적 환경에서의 실시간 적응 및 시스템 수준의 강건성 확보 단순히 정답을 생성하는 것을 넘어, 변화하는 상황과 위협에 능동적으로 대처하고 시스템 자체를 진화시키는 연구들이 눈길을 끕니다. MOSS는 프롬프트 수정에 그치던 기존의 자기 진화를 소스 코드 수준의 재작성으로 확장하여 에이전트 시스템의 구조적 결함을 스스로 치유하게 만들었고, FuzzingBrain V2는 멀티에이전트를 활용해 100% 재현 가능한 방식으로 실제 소프트웨어 취약점을 탐지하고 수정했습니다. 또한, AdvGame은 언어 모델의 안전성 정렬을 공격자와 방어자 간의 실시간 비영합 게임으로 풀어내어 동적 방어력을 높였으며, Plan, Watch, Recover 연구는 사용자가 정해진 절차를 벗어났을 때 실시간으로 개입하고 코칭하는 능동형 어시스턴트 모델을 제시했습니다. 이는 AI가 통제된 실험실을 벗어나 예측 불가능한 현실 세계의 오류와 보안 위협 속에서도 신뢰할 수 있는 능동적 시스템으로 자리 잡고 있음을 보여줍니다.

논문별 핵심 요약

  • Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses: 검색 에이전트의 기억 부담을 정책이 아닌 하네스가 맡도록 분리한 강화학습 기반 검색 에이전트입니다. 8개 벤치마크에서 평균 curated recall 0.730을 기록하며, 특히 전이 성능이 강했습니다.

  • Forget Attention: Importance-Aware Attention Is All You Need: 상태 공간 모델(SSM)의 중요도 신호를 어텐션 점수에 직접 주입하는 SISA를 제안합니다. 단일 SDPA 호출로 구현 가능하면서도 검색 성능과 장거리 의존성 복원이 크게 개선됩니다.

  • Do Transformers Need Three Projections? Systematic Study of QKV Variants: QKV 투영을 얼마나 공유해도 되는지 체계적으로 분석한 연구입니다. Q-K=V는 성능을 거의 유지하면서 KV 캐시를 크게 줄였고, GQA/MQA와 결합 시 메모리 절감 효과가 더 커졌습니다.

  • Compiling Agentic Workflows into LLM Weights: 외부 오케스트레이션 대신 작업 절차 자체를 모델 가중치에 컴파일하는 접근을 다룹니다. 반복 호출과 긴 컨텍스트 소모를 줄이면서도 near-frontier 수준의 품질을 달성합니다.

  • Learning Agent-Compatible Context Management for Long-Horizon Tasks: 고정된 에이전트를 위해 외부 LLM이 컨텍스트를 동적으로 편집하는 AdaCoM을 제안합니다. 장기 웹 검색과 리서치 과제에서 불필요한 과거 정보를 줄이면서 과업 제약은 보존합니다.

  • Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate: 다중 에이전트 토론을 단일 LLM 내부로 증류하는 사후학습 방법입니다. 최대 93% 적은 토큰으로도 explicit debate와 동등하거나 더 나은 성능을 보였습니다.

  • MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems: 프롬프트가 아니라 소스 코드 수준에서 자가 진화를 수행하는 에이전트 시스템입니다. 실제 실패 증거를 바탕으로 코드 구조를 재작성하고, 검증 후 롤백 가능한 방식으로 배포합니다.

  • Safety Alignment of LMs via Non-cooperative Games: 안전성 정렬을 공격자 LM과 방어자 LM이 상호 적응하는 비영합 게임으로 재정의합니다. 선호 기반 강화학습을 통해 안전성과 유용성의 Pareto frontier를 동시에 밀어냅니다.

  • Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance: 사용자가 절차를 벗어났을 때 언제 개입하고 어떻게 복귀시킬지를 학습하는 선제적 멀티모달 보조 시스템입니다. EgoProactive와 Pro²Bench를 통해 실제 복귀 코칭 성능을 평가합니다.

  • FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction: 멀티에이전트 LLM으로 취약점 발견과 재현을 자동화한 보안 시스템입니다. OSS-Fuzz 기반 검증, 정밀한 취약점 위치화, 계층적 퍼징을 결합해 높은 탐지율과 실제 취약점 발견 성과를 냈습니다.


Harness-1: 상태 외부화 하니스가 적용된 검색 에이전트를 위한 강화학습 / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

논문 소개

검색 에이전트는 종종 성장하는 트랜스크립트 위의 정책으로 학습되는데, 모델은 검색 방법을 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 합니다. 저자들은 이런 설정이 정책(policy) 내부에 너무 많은 상태 관리 부담을 지우며, 강화학습이 의미 있는 검색 의사결정과 환경이 더 안정적으로 처리할 수 있는 복구 가능한 기록 관리를 동시에 최적화하게 만든다고 봅니다.

이를 해결하기 위해 상태 외부화 하네스(state-externalizing harness) 안에서 강화학습으로 학습한 20B 검색 에이전트 Harness-1을 제안합니다. 이 하네스는 후보 풀, 중요도 태그가 붙은 정제 집합, 압축된 증거 링크, 검증 기록, 압축·중복 제거된 관찰, 예산을 고려한 컨텍스트 렌더링 등 환경 측 작업 기억을 관리합니다.

반면 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 버릴지, 무엇을 검증할지, 언제 종료할지를 포함한 의미적 결정을 맡습니다. 웹, 금융, 특허, 다중 홉 질의응답을 포함한 8개 검색 벤치마크에서 Harness-1은 평균 curated recall 0.730을 달성해, 다음으로 강한 오픈 소스 검색 서브에이전트보다 11.4포인트 높았습니다. 특히 학습 도메인을 벗어난 전이 벤치마크에서 성능 향상이 두드러져, 명시적 검색 상태에 대한 강화학습이 더 잘 일반화되는 검색 행동을 만들 수 있음을 시사합니다.

초록(Abstract)

검색 에이전트는 종종 증가하는 트랜스크립트 위에서 정책으로 학습된다. 즉, 모델은 무엇을 검색할지 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 한다.

이러한 정식화가 정책 안에 너무 많은 일상적인 상태 관리를 집어넣는다고 주장한다. 즉, 강화학습(RL)이 의미론적 검색 결정과 함께, 환경이 더 안정적으로 유지할 수 있는 복구 가능한 기록 관리까지 함께 최적화하도록 강제된다는 것이다.

상태를 가지는 검색 허니스(stateful search harness) 안에서 강화학습으로 학습된 20B 검색 에이전트(검색 서브에이전트) Harness-1을 소개한다. 이 허니스는 후보 풀, 중요도 태그가 붙은 선별 집합, 간결한 증거 링크, 검증 기록, 압축 및 중복 제거된 관찰, 그리고 예산 인지형 컨텍스트 렌더링을 포함한 환경 측 작업 메모리를 유지한다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 폐기할지, 무엇을 검증할지, 그리고 언제 중단할지와 같은 의미론적 결정을 유지한다.

웹, 금융, 특허, 멀티홉 QA를 아우르는 8개의 검색 벤치마크 전반에서 Harness-1은 평균 0.730의 선별 리콜(curated recall)을 달성했으며, 차점 오픈 검색 서브에이전트보다 +11.4포인트 앞서고, 훨씬 더 큰 프런티어 모델 검색기와도 경쟁 가능한 성능을 보였다. 특히 보지 못한 전이 벤치마크에서 그 향상이 두드러졌는데, 이는 명시적인 검색 상태 위에서의 강화학습이 학습 도메인을 넘어 일반화되는 검색 행동을 만들어낼 수 있음을 시사한다. 코드: https://github.com/pat-jj/harness-1

Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.

논문 링크

https://arxiv.org/abs/2606.02373

더 읽어보기

https://github.com/pat-jj/harness-1

https://huggingface.co/pat-jj/harness-1


어텐션은 잊어라: 중요도 인지 어텐션만 있으면 된다 / Forget Attention: Importance-Aware Attention Is All You Need

논문 소개

트랜스포머(Transformer)와 상태 공간 모델(State Space Model, SSM)을 결합한 하이브리드 언어 모델링에서는 전역적으로 정보를 탐색하는 능력과 시퀀스상에서 무엇이 중요한지를 판별하는 능력을 어떻게 함께 살릴 것인가가 핵심 과제로 제시됩니다. 기존의 트랜스포머는 어디든 볼 수 있지만 우선순위를 정하는 데 한계가 있고, SSM은 중요한 신호를 누적할 수 있지만 지나간 정보를 다시 정교하게 참조하기 어렵다는 점에서 서로 보완적입니다. 그러나 기존의 하이브리드 방식은 주로 블록 단위나 헤드 단위에서 두 메커니즘을 병렬적으로 배치하는 데 그쳐, 정작 어텐션 점수를 계산하는 순간에는 SSM의 중요도 신호가 직접 반영되지 못했습니다. 이러한 문제의식 위에서 저자들은 SSM-Informed Softmax Attention(SISA)을 제안하며, SSM이 제공하는 순차적 중요도 신호를 어텐션 출력이 아니라 점수 자체에 주입하는 새로운 결합 방식을 설계합니다. 핵심 아이디어는 내용 유사도를 나타내는 표준 내적 항에 더해, SSM에서 유도한 중요도 벡터의 내적 항을 함께 더함으로써 토큰 간 관계를 단순한 콘텐츠 일치가 아니라 “무엇이 지금 중요한가”까지 반영하는 형태로 확장하는 데 있습니다.

특히 이 방법의 중요한 점은 추가적인 재귀 상태나 맞춤형 커널(custom kernel) 없이도, 확장된 query와 key를 구성해 단일 Scaled Dot-Product Attention(SDPA) 호출만으로 구현할 수 있다는 사실입니다. 다시 말해, SISA는 수학적으로는 SSM의 순차적 정보를 활용하지만 구현 관점에서는 표준 트랜스포머 연산 흐름과 잘 맞물리도록 설계되어 있어, FlashAttention 계열 최적화와의 호환성도 유지합니다. 또한 SSM 채널은 입력으로부터 decay와 rotation 성분을 계산해 중요도 신호를 구성하며, 이 신호가 어텐션의 score level에서 작동하도록 만들어 retrieval 성능을 직접적으로 끌어올립니다. 실험 결과에서도 이러한 설계의 효과가 분명하게 나타나는데, 152M 규모와 5B 토큰 조건에서 SISA는 LAMBADA-greedy에서 17.3%를 기록해 표준 트랜스포머와 Mamba-3를 앞섰고, NIAH(Needle-in-a-Haystack)에서는 학습 1K step 시점부터 100%를 달성해 매우 빠른 검색 수렴을 보였습니다.

더 나아가 SISA는 369M 규모에서도 완전히 우세한 지표만 보이는 것은 아니지만, 적어도 중요한 검색 과제에서 안정적으로 강한 성능을 유지하면서도 stock SDPA 실행성을 잃지 않는다는 점에서 실용적 의미가 큽니다. 저자들은 이를 통해 블록 수준과 헤드 수준을 넘어서는 세 번째 설계 축, 즉 score-level fusion이 하이브리드 언어 모델의 유효한 대안임을 제시합니다. 결국 이 논문의 기여는 단순히 두 모델 계열을 섞는 데 있지 않고, SSM이 제공하는 중요도 신호를 어텐션 점수 형성의 중심으로 끌어와 전역 검색과 순차적 우선순위 판단을 하나의 연산 안에서 통합했다는 점에 있습니다. 이러한 접근은 장거리 의존성 복원과 핵심 정보 추적이 중요한 언어 모델링 과제에서, 하이브리드 구조가 어떤 방식으로 더 정교하게 진화할 수 있는지를 보여 주는 중요한 사례로 볼 수 있습니다.

초록(Abstract)

어텐션의 전역 검색 능력과 상태 공간 모델(SSM)의 순차적 중요도 신호를 결합하는 것은 하이브리드 언어 모델링의 미해결 과제입니다. 트랜스포머는 모든 것을 볼 수 있지만 우선순위를 정하지 못하고, SSM은 무엇이 중요한지는 알지만 다시 살펴볼 수는 없습니다. 기존 하이브리드인 Jamba(블록 수준)와 Hymba(헤드 수준)는 두 메커니즘을 서로 분리된 영역에 배치하므로, 어텐션 계산 자체에서는 어느 쪽도 다른 쪽에 정보를 제공하지 못합니다. 우리는 SISA(SSM-Informed Softmax Attention)를 제안합니다. 이는 SSM에서 유도한 중요도 항을 어텐션 점수 내부에 직접 추가하고, 확장된 쿼리/키 벡터에 대한 단일 SDPA 호출로 전체 연산을 구현합니다. 재귀 상태도, 맞춤형 커널도 필요하지 않습니다. 152M / 50억 토큰에서 SISA는 LAMBADA-greedy 17.3%를 달성했으며(트랜스포머 13.9, Mamba-3 15.5 대비), 1K 스텝부터 NIAH 100%를 기록했고, 트랜스포머의 검색 수렴보다 7배 더 빠릅니다. 369M에서는 Mamba-3가 LAMBADA에서 앞서지만, SISA는 완벽한 NIAH와 기본 SDPA 실행을 유지합니다. 따라서 SISA는 해당 분야를 지배해 온 블록 수준과 헤드 수준 패러다임을 넘어, SSM-어텐션 하이브리드를 위한 세 번째 설계 축인 점수 수준 융합(score-level fusion)을 제시합니다.

Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.

논문 링크

https://arxiv.org/abs/2606.02332


트랜스포머는 세 개의 프로젝션이 필요한가? QKV 변형의 체계적 연구 / Do Transformers Need Three Projections? Systematic Study of QKV Variants

논문 소개

트랜스포머(Transformer)의 성능을 지탱해 온 핵심 구성요소는 질의(query), 키(key), 값(value)으로 이루어진 QKV(query-key-value) 어텐션이지만, 각 투영이 실제로 얼마나 독립적으로 필요한지에 대해서는 충분히 체계적인 검토가 이루어지지 않았습니다. 이 연구는 바로 그 공백을 겨냥하여, Q-K=V, Q=K-V, Q=K=V의 세 가지 투영 공유 제약을 중심으로 어텐션 내부의 가중치 묶기(weight tying)가 표현력과 추론 효율에 어떤 영향을 주는지 정밀하게 분석합니다. 특히 마지막 두 변형이 어텐션 맵을 대칭적으로 만들기 쉽다는 점에 주목하여, 2차원 위치 인코딩(two-dimensional positional encoding)을 도입해 방향성을 보완하는 설계까지 함께 검토함으로써, 단순한 파라미터 축소가 아니라 표현 공간의 구조 자체를 바꾸는 문제로 논의를 확장합니다. 이러한 접근은 투영 공유가 성능 저하를 유발하는지 여부를 묻는 데서 멈추지 않고, 어떤 조건에서 품질이 유지되고 어떤 조건에서 어텐션의 방향성과 선택성이 훼손되는지를 분리해 설명한다는 점에서 의미가 큽니다.

실험은 합성 과제, 비전, 언어 모델링이라는 서로 다른 영역을 포괄하도록 구성되어 있으며, 이를 통해 투영 공유의 효과가 특정 데이터 도메인에 국한된 현상이 아님을 검증합니다. 합성 과제에서는 순서 반전, 정렬, 치환, 교환, 복사와 같은 조작 문제를 이용해 모델이 구조적 관계를 얼마나 잘 학습하는지 살펴보고, 비전 실험에서는 MNIST, CIFAR, TinyImageNet, 이상 탐지(anomaly detection)를 통해 공간적 위치 정보가 중요한 환경에서의 일반화 성능을 평가합니다. 언어 모델링에서는 3억(300M) 및 12억(1.2B) 파라미터 규모의 모델을 100억(10B) 토큰으로 학습하여, 대규모 설정에서도 동일한 경향이 유지되는지를 확인합니다. 그 결과 Q-K=V 방식은 기본 QKV 트랜스포머와 대체로 동등하거나 때로는 더 나은 성능을 보였고, 언어 모델링에서는 키-밸류(key-value, KV) 캐시를 50% 줄이면서도 혼란도(perplexity) 악화는 3.1%에 그쳤습니다.

더 중요한 점은 이 절감 효과가 그룹화 질의 어텐션(grouped query attention, GQA)이나 다중 질의 어텐션(multi-query attention, MQA)과 상호 보완적으로 결합된다는 사실입니다. Q-K=V를 GQA-4와 함께 사용하면 KV 캐시를 87.5%까지 줄일 수 있고, MQA와 결합하면 96.9%까지 줄어들어 온디바이스 추론(on-device inference)에 실질적인 이점을 제공합니다. 저자들은 이러한 결과를 통해 키와 값이 실제로는 비슷한 표현 공간을 공유할 수 있고, 어텐션이 저랭크(low-rank) 구조에서 작동하므로 완전한 QKV 분리가 반드시 필요한 것은 아니라는 점을 제시합니다. 반대로 Q=K-V는 질의와 키를 과도하게 묶어 어텐션의 방향성을 약화시키기 때문에, 성능과 안정성 면에서 더 불리한 것으로 나타납니다.

종합하면, 이 연구는 트랜스포머의 QKV 구조를 당연한 표준이 아니라 재검토 가능한 설계 공간으로 바라보게 만들며, 어떤 투영을 공유하고 어떤 역할을 분리해야 하는지에 대한 실증적 기준을 제시합니다. 특히 성능을 거의 유지하면서 메모리 사용량을 크게 낮출 수 있다는 점에서, 이 결과는 엣지 디바이스(edge device)와 같은 제약된 환경에서의 효율적 배포를 위한 중요한 설계 지침으로 읽힙니다.

초록(Abstract)

트랜스포머는 다양한 AI 작업의 표준 해법이 되었으며, 쿼리(query), 키(key), 밸류(value)(QKV) 어텐션 공식이 중심적인 역할을 합니다. 그러나 이 세 투영의 개별 기여와 일부를 생략했을 때의 영향은 아직 충분히 이해되지 않았습니다. 우리는 세 가지 투영 공유 제약을 체계적으로 평가했습니다. a) Q-K=V(공유 키-밸류), b) Q=K-V(공유 쿼리-키), c) Q=K=V(단일 투영)입니다. 마지막 두 변형은 대칭적인 어텐션 맵을 생성하므로, 이를 해결하기 위해 2차원 위치 인코딩을 통한 비대칭 어텐션도 함께 탐구했습니다. 합성 과제, 비전(MNIST, CIFAR, TinyImageNet, 이상 탐지), 그리고 언어 모델링(10B 토큰에서 3억 및 12억 파라미터 모델)에 걸친 실험을 통해, 우리 트랜스포머가 QKV 트랜스포머와 동등한 성능을 보이거나 때로는 더 나은 성능을 보인다는 사실을 발견했습니다. 언어 모델링에서는 Q-K=V 투영 공유가 퍼플렉서티를 3.1%만 악화시키면서 KV 캐시를 50% 줄였습니다. 결정적으로, 투영 공유는 헤드 공유(GQA/MQA)와 상호 보완적입니다. Q-K=V와 GQA-4를 결합하면 캐시를 87.5% 줄일 수 있고, Q-K=V와 MQA를 결합하면 96.9%까지 줄여 실용적인 온디바이스 추론을 가능하게 합니다. 우리는 Q-K=V가 키와 밸류가 유사한 표현 공간을 점유할 수 있고 어텐션이 저랭크 영역에서 작동하기 때문에 품질을 유지한다는 점을 보였으며, 반면 Q=K-V는 어텐션의 방향성을 깨뜨립니다. 우리의 결과는 어텐션에서 충분히 탐구되지 않은 가중치 타이(weight tying)의 한 사례로서 투영 공유를 체계적으로 규명하며, 특히 엣지 배포에서 유용한 직접적이고 정량화 가능한 추론 메모리 이점을 보여줍니다. 코드는 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에서 공개되어 있습니다.

Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

논문 링크

https://arxiv.org/abs/2606.04032

더 읽어보기

https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections


에이전틱 워크플로를 LLM 가중치에 컴파일하기: 100배 적은 비용으로 프런티어급에 가까운 품질 / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

논문 소개

최근 에이전트 오케스트레이션 프레임워크의 확산은 복잡한 업무를 대규모 언어 모델(Large Language Model, LLM) 위에서 외부 조정자로 제어하는 방식이 사실상 표준처럼 받아들여지고 있음을 보여 주지만, 이 논문은 절차적 작업에서는 그러한 구조가 반드시 최선이 아니라고 문제를 제기합니다. 외부 오케스트레이터가 매 턴 지시와 라우팅 결정을 주입하는 방식은 제어와 디버깅이 쉽다는 장점이 있으나, 컨텍스트 윈도우(context window)를 지속적으로 소모하고, 매 대화마다 프런티어 모델(frontier model)을 호출해야 하며, 절차 자체가 제3자 제공업체에 노출될 수 있다는 한계를 지닙니다. 이에 따라 저자들은 작업 절차를 프롬프트에 두는 대신 작은 파인튜닝 모델의 가중치(weights) 안으로 직접 컴파일하여, 런타임에는 별도 오케스트레이션 없이도 절차가 내부화된 에이전트를 만드는 접근을 제안합니다. 이러한 방식은 절차를 외부에서 계속 주입하지 않아도 되므로 비용을 크게 낮추고, 긴 문맥을 차지하지 않으며, 민감한 업무 흐름을 외부 서비스에 드러내지 않는다는 점에서 구조적 이점을 가집니다. 저자들은 이처럼 절차가 모델 내부에 숨어 작동하는 에이전트를 subterranean agent라고 부르며, 기존의 오케스트레이션 중심 설계와 명확히 구분합니다.

핵심 방법론은 단순한 개념 제시가 아니라, 개발자들이 이 접근을 주저하는 세 가지 인식된 장벽을 실제 업무 환경에서 검증하는 데 있습니다. 첫째, 작은 모델이 프런티어 수준의 품질을 낼 수 있는지에 대한 성능 우려를 다루고, 둘째, 제품 특화 지식처럼 자주 바뀌는 정보를 가중치에 담아낼 수 있는지에 대한 지식 내재화 문제를 점검하며, 셋째, 복잡한 분기와 허브가 많은 대형 워크플로에도 이 방식이 확장 가능한지를 검증합니다. 이를 위해 연구진은 여행 예약, Zoom 지원, 보험 청구라는 서로 다른 성격의 세 영역을 선택해, 절차적 깊이와 도메인 지식의 요구 수준이 다른 조건에서 컴파일 방식의 효용을 비교합니다. 여행 예약은 14개 노드로 구성된 표준적인 절차 흐름을 통해 상태 전이와 단계적 의사결정의 안정성을 시험하고, Zoom 지원은 같은 규모의 워크플로라도 제품별 정책과 기능 지식이 함께 필요하다는 점을 강조합니다. 보험 청구는 55개 노드와 6개의 의사결정 허브를 가진 더 복잡한 구조로, 조건 분기와 정책 계산이 동시에 요구되는 실제적 스트레스 테스트 역할을 수행합니다.

실험 결과의 함의는 명확합니다. 절차를 가중치에 내재화한 작은 모델이 near-frontier quality, 즉 프런티어 모델에 근접한 품질을 유지하면서도 비용을 두 자릿수 배수 수준으로 줄일 수 있다는 점이 확인되며, 이는 성능과 효율 사이의 전통적인 균형을 다시 생각하게 만듭니다. 특히 보험 청구 사례에서 보이듯, 모델은 단순히 대답을 생성하는 데 그치지 않고 확인, 분기, 보상 계산, 지급 안내까지 포함한 절차적 추론을 일관되게 수행할 수 있음을 보여 줍니다. 이러한 결과는 반복 가능하고 구조가 비교적 안정적인 업무라면, 매번 외부 조정을 거치는 오케스트레이션보다 절차 자체를 학습한 컴파일 방식이 더 적합할 수 있음을 시사합니다. 동시에 절차 변경 시 재학습이 필요할 수 있고, 프롬프트 기반 방식보다 즉각적인 수정과 해석 가능성에서 불리할 수 있다는 점도 남겨 두지만, 연구의 기여는 에이전트 설계의 선택지를 넓혀 주었다는 데 있습니다. 결국 이 논문은 에이전트 워크플로를 항상 외부에서 조립해야 한다는 통념에 도전하며, 절차를 모델 내부로 옮기는 방식이 실무 수준에서도 충분히 유효한 대안이 될 수 있음을 실증적으로 제시합니다.

초록(Abstract)

에이전트 오케스트레이션 프레임워크는 급속히 확산되어, LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, LlamaIndex를 합쳐 GitHub 스타 수가 29만 개를 넘었습니다. 이들은 모두 동일한 패턴을 따릅니다. 즉, LLM 위에 외부 오케스트레이터를 두고, 매 턴마다 지시사항과 라우팅 결정을 주입하는 방식입니다. 최근 연구는 이러한 아키텍처가 절차적 작업에서는, Frontier 모델의 시스템 프롬프트에 절차를 그대로 제공하는 것만으로도 더 우세하다는 사실을 보여주었습니다 [Dennis et al., 2026a]. 다만 이는 컨텍스트 윈도우를 소모하고, 모든 대화마다 Frontier 모델이 필요하며, 독점 절차가 제3자 제공업체에 노출된다는 대가를 치릅니다. 절차를 작은 파인튜닝 모델의 가중치에 컴파일하여 지하형 에이전트(subterranean agent)를 만드는 방식은 이러한 문제를 모두 해소할 수 있어야 하며, 선행 연구(SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos)도 이 기법이 효과가 있음을 보여주었습니다. 그럼에도 개발자 채택은 압도적으로 오케스트레이션 쪽에 쏠려 있습니다. 우리는 인식되는 장벽 세 가지를 식별하고, 이를 여행 예약(14개 노드), Zoom 지원(14개 노드, 제품 특화 지식), 보험 청구(55개 노드, 6개 의사결정 허브)라는 세 영역에서 실증적으로 각각 다룹니다.

Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).

논문 링크

https://arxiv.org/abs/2605.22502

더 읽어보기

https://discuss.pytorch.kr/t/llm-subterranean-agent/10501


장기 범위 과제를 위한 에이전트 호환 컨텍스트 관리 학습 / Learning Agent-Compatible Context Management for Long-Horizon Tasks

논문 소개

대규모 언어 모델(LLM) 기반 에이전트가 웹 검색이나 심층 조사처럼 단계가 길고 중간 판단이 누적되는 장기 과업(long-horizon tasks)을 수행할 때, 가장 큰 장애물 가운데 하나는 대화가 길어질수록 유효한 단서와 불필요한 과거 정보가 뒤섞여 추론이 흔들린다는 점입니다. 기존의 컨텍스트 관리 방법은 에이전트 내부 정책을 함께 학습하거나 요약과 같은 고정 전략에 의존하는 경우가 많았는데, 이러한 방식은 폐쇄형(closed-source) 에이전트에 적용하기 어렵고 에이전트마다 요구되는 관리 방식이 다를 수 있다는 현실을 충분히 반영하지 못합니다. 이를 해결하기 위해 제안된 Adaptive Context Management(AdaCoM)은 고정된 에이전트(frozen agent)는 그대로 유지한 채, 외부의 또 다른 LLM이 컨텍스트를 동적으로 편집하도록 학습하는 접근을 취합니다. 여기서 핵심은 단순히 긴 대화를 압축하는 것이 아니라, 메시지 단위로 삭제, 재작성, 병합을 수행하면서 현재 과업에 필요한 제약조건과 진행 상황은 보존하고 오래된 잡음은 제거하는 유연한 수정 행동을 학습하는 데 있습니다. 이러한 설계는 컨텍스트 관리를 정적인 전처리가 아니라, 에이전트의 성공률을 직접 개선하는 정책 학습 문제로 재정의한다는 점에서 의미가 큽니다.

AdaCoM은 먼저 컨텍스트 관리자를 구조화된 출력 형식에 익숙하게 만드는 지도 미세조정(supervised fine-tuning, SFT)으로 출발한 뒤, 실제 과업 성과를 보상으로 삼아 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)로 정책을 정교화합니다. 이 과정에서 관리자는 현재 컨텍스트를 프롬프트로 변환해 입력받고, 마르코프 의사결정 과정(Markov decision process, MDP) 관점에서 매 단계마다 어떤 메시지를 유지하거나 수정할지를 선택합니다. 또한 최종 정답만 보는 대신, 컨텍스트 길이 초과, 반복적인 도구 호출, 형식 오류, 중간 단계의 과업 신호 등을 반영한 과정 보상(process reward)을 함께 설계하여 장기 과업에서 중요한 국소적 편집 품질까지 학습하도록 만듭니다. 이를 통해 AdaCoM은 단순한 요약기가 아니라, 에이전트가 안정적으로 사고를 이어 가도록 돕는 적응형 편집 정책으로 동작합니다.

실험적으로는 웹 검색과 심층 조사 벤치마크에서 다양한 에이전트에 적용했을 때 성능 향상이 확인되었으며, 특히 본래 ReAct(Reasoning and Acting) 방식의 기본 성능이 높은 에이전트일수록 더 높은 충실도의 컨텍스트 보존이 유리하고, 반대로 상대적으로 약한 에이전트는 더 공격적인 압축을 통해 안정적인 추론 구간에 머무르는 편이 효과적이라는 사실이 드러났습니다. 저자들은 이를 fidelity-reliability trade-off로 해석하며, 컨텍스트 관리가 에이전트의 능력 수준에 따라 달라져야 함을 보여 줍니다. 더 나아가 전이 실험에서는 유사한 능력 특성을 지닌 에이전트 사이에서 AdaCoM의 전략이 더 잘 이전되는 경향이 관찰되어, 하나의 보편적 요약 규칙보다 재사용 가능한 외부 컨텍스트 관리자라는 방향이 실용적일 수 있음을 시사합니다. 결국 이 연구는 장기 과업에서의 실패 원인을 에이전트 추론 능력만으로 보지 않고, 그 추론을 지지하는 컨텍스트 관리 자체를 학습 가능한 핵심 구성 요소로 다룬다는 점에서 중요한 방법론적 진전을 제시합니다.

초록(Abstract)

대규모 언어 모델(LLM) 에이전트는 웹 검색과 심층 리서치와 같은 장기적 과제에 점점 더 많이 직면하고 있으며, 실제 애플리케이션에서는 누적된 컨텍스트로 인해 장문 컨텍스트 성능 저하와 추론 실패가 발생할 수 있습니다. 기존 연구는 에이전트 측 컨텍스트 제어나 요약과 같은 고정 전략을 통한 컨텍스트 관리로 이를 완화해 왔지만, 이러한 방법은 적응을 위해 에이전트 자체를 학습시켜야 하므로 폐쇄형 소스 에이전트에는 실용적이지 않으며, 서로 다른 에이전트가 서로 다른 전략을 필요로 할 수 있다는 점도 간과합니다.

우리는 Adaptive Context Management(AdaCoM)를 제안합니다. 이는 유연한 수정 행동과 종단 간 강화학습을 통해 고정된 에이전트의 컨텍스트를 관리하도록 외부 LLM을 학습시킵니다. 웹 검색 및 심층 리서치 벤치마크의 다양한 에이전트에서 AdaCoM은 오래된 콘텐츠를 제거하면서도 작업 제약과 진행 상황을 보존함으로써 성능을 크게 향상시킵니다. 학습된 전략은 충실도-신뢰성 간 트레이드오프(Fidelity-Reliability Trade-off)를 보여줍니다. 즉, 일반적인 ReAct 성능이 더 높은 에이전트는 더 높은 충실도의 컨텍스트 보존에서 이득을 얻는 반면, 성능이 더 낮은 에이전트는 신뢰할 수 있는 추론 범위 안에 머물기 위해 더 공격적인 압축이 필요합니다. 전이 실험은 AdaCoM이 일반적인 ReAct 성능으로 측정한 능력이 유사한 에이전트 간에 가장 효과적으로 일반화됨을 보여주며, 이는 에이전트 시스템을 위한 재사용 가능한 컨텍스트 매니저로 나아갈 실용적인 경로를 시사합니다.

LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.

논문 링크

https://arxiv.org/abs/2605.30785


잠재 에이전트: 내재화된 멀티에이전트 토론을 위한 사후학습 절차 / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

논문 소개

대규모 언어 모델(Large Language Models, LLMs)의 추론 성능을 높이기 위한 다중 에이전트 토론(Multi-Agent Debate)은 강력한 방법이지만, 여러 에이전트가 긴 토론 기록을 주고받아야 하므로 계산 비용이 매우 크다는 한계를 지닙니다. Latent Agents는 이러한 비효율을 해결하기 위해, 외부에서 수행되던 다중 에이전트 토론을 단일 언어 모델 내부로 증류하는 사후학습(post-training) 절차를 제안합니다. 핵심 아이디어는 토론의 결과만 압축하는 수준을 넘어서, 토론의 구조 자체를 모델이 먼저 학습하게 한 뒤, 강화학습(Reinforcement Learning, RL)을 통해 그 구조를 내부화하도록 유도하는 데 있습니다. 이를 위해 저자들은 먼저 3개 에이전트와 2개 라운드로 구성된 토론 데이터를 구축하고, 마지막 합의가 형성된 산술 문제 토론 기록에 구조 태그를 부여해 일관된 형식을 만들었습니다. 이어서 지도 파인튜닝(Supervised Fine-Tuning, SFT) 단계에서는 전체 토론 trace를 그대로 학습시켜 모델이 토론의 전개 방식과 합의 형성 패턴을 모사하도록 했습니다.

이후의 강화학습 단계는 단순한 형식 모방을 넘어 실제로 토론을 내부화하는 과정에 해당합니다. 여기서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용해 여러 후보 출력을 비교하고, 정답이 더 이른 시점에 나타나도록 압박하는 길이 클리핑(length clipping) 보상을 결합합니다. 또한 <|Agent 1|>, <|Round 1|>, <|endofdebate|>와 같은 구조 태그를 유지하도록 돕는 형식 보상을 점차 약화시키며, 모델이 더 이상 긴 외부 토론에 의존하지 않고도 내부 표현만으로 결론에 도달하도록 설계합니다. 이러한 동적 보상 스케줄링과 길이 축소는 토론의 계산적 외형을 줄이면서도, 에이전트 간 상호작용이 만들어 내는 추론 이점을 보존하는 데 중요한 역할을 합니다. 실험 결과, 제안된 모델은 GSM8K, MMLU-Pro, Big-Bench Hard(BBH)에서 explicit multi-agent debate와 같거나 더 나은 성능을 보였고, 사용 토큰은 최대 93%까지 줄어들어 추론 효율이 크게 향상되었습니다. 특히 일부 설정에서는 SFT만으로도 이미 기존 토론 방식보다 우수한 결과가 나타났고, RL을 더하면 정확도와 토큰 절감 효과가 함께 강화되어 내부화 절차의 유효성이 분명하게 드러났습니다.

이 연구의 또 다른 중요한 기여는 내부화된 토론이 모델의 표현 공간을 어떻게 바꾸는지 기계적으로 분석한 점입니다. 활성 조향(activation steering) 실험을 통해, 저자들은 내재화된 모델 내부에 에이전트별 부분공간(agent-specific subspaces)이 형성되며, 서로 다른 에이전트 관점에 대응하는 해석 가능한 방향이 존재함을 보였습니다. 이는 다중 에이전트 토론의 장점이 단순히 출력 텍스트의 평균화에서 오는 것이 아니라, 서로 다른 추론 관점이 잠재 공간에서 구조적으로 분리되고 조합되는 과정과 관련됨을 시사합니다. 더 나아가 악성 에이전트를 내부화한 뒤 음의 조향(negative steering)으로 이를 억제하는 실험은, 증류된 모델에서 유해 행동이 더 국소화되고 제어하기 쉬워질 수 있음을 보여 줍니다. 결과적으로 Latent Agents는 다중 에이전트 추론을 비용 효율적으로 압축하는 방법을 제시하는 동시에, 내부화된 추론의 구조와 제어 가능성을 함께 밝힌다는 점에서 의미가 큽니다.

초록(Abstract)

멀티에이전트 디베이트는 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 것으로 나타났다. 그러나 이는 계산 비용이 많이 들며, 질문에 답하기 전에 긴 대화 기록을 생성해야 한다. 이러한 비효율성을 해결하기 위해, 우리는 디베이트 구조 학습과 동적 보상 스케줄링 및 길이 클리핑을 통한 내재화를 결합한 2단계 파인튜닝 파이프라인을 통해 멀티에이전트 디베이트를 단일 LLM으로 증류하는 프레임워크를 개발한다. 여러 모델과 벤치마크 전반에서, 우리의 내재화된 모델은 최대 93% 적은 토큰으로 명시적인 멀티에이전트 디베이트 성능과 동등하거나 이를 능가한다. 이어서 활성 조향(activation steering)을 통해 이러한 능력의 기계론적 기반을 조사한 결과, 내재화는 에이전트별 부분공간, 즉 서로 다른 에이전트 관점에 대응하는 활성 공간의 해석 가능한 방향을 생성함을 확인했다. 또한 우리는 실용적 적용 사례를 보였다. 내재화된 디베이트를 통해 악성 에이전트를 LLM에 주입한 뒤, 음의 조향(negative steering)을 적용해 이를 억제함으로써, 증류가 해로운 행동을 더 쉽게 국소화하고 제어할 수 있게 하며, 기본 모델에 조향을 적용할 때보다 전반적인 성능 저하를 더 적게 유발함을 보였다. 우리의 연구 결과는 증류된 모델에서 멀티에이전트 능력을 이해하기 위한 새로운 관점을 제시하며, 내재화된 추론 행동을 제어하기 위한 실용적 지침을 제공한다. 코드는 다음 URL에서 제공된다: https://github.com/johnsk95/latent_agents

Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents

논문 링크

https://arxiv.org/abs/2604.24881

더 읽어보기

https://github.com/johnsk95/latent_agents


MOSS: 자율 에이전트 시스템에서 소스 수준 재작성을 통한 자기 진화 / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

논문 소개

배포 이후에도 스스로 학습하며 반복 실패를 줄일 수 있는 자율 에이전트 시스템은 오래전부터 중요한 목표였지만, 실제로는 대부분의 시스템이 텍스트로 수정 가능한 설정과 프롬프트 수준에 머무르며 구조적 결함을 근본적으로 다루지 못했습니다. 이러한 한계를 넘어서기 위해 제안된 MOSS는 소스 수준 적응(source-level adaptation)을 자기 진화의 매체로 삼아, 에이전트의 핵심 실행 구조 자체를 재작성할 수 있도록 설계된 시스템입니다. 저자들은 라우팅, 훅 순서, 상태 불변식, 디스패치처럼 실제 동작을 결정하는 요소들이 코드 안에 존재하기 때문에, skill 파일이나 프롬프트 구성만 바꾸는 방식으로는 접근할 수 없는 실패가 필연적으로 남는다고 지적합니다. 반면 소스 코드는 튜링 완전성(Turing-complete)을 가지며, 텍스트 기반 아티팩트의 상위집합에 해당하고, 모델의 지시 준수 여부에 의존하지 않고 결정적으로 동작한다는 점에서 훨씬 일반적이고 안정적인 적응 수단으로 제시됩니다.

MOSS의 방법론은 자동으로 수집한 프로덕션 실패 증거(production-failure evidence)를 출발점으로 삼아, 이를 기준으로 다단계 진화 파이프라인을 고정적으로 수행하는 데 핵심이 있습니다. 코드 수정 자체는 외부 코딩 에이전트 CLI(command-line interface)에 위임하지만, MOSS는 단계의 순서와 최종 판정을 직접 통제함으로써 생성과 검증의 책임을 분리합니다. 이렇게 만들어진 후보 버전은 일회성 시험 워커(ephemeral trial workers)에서 실패 배치를 다시 재생(replay)하여 검증되며, 단순한 정적 분석이 아니라 실제 실패 상황에 대한 재현 기반 평가를 수행한다는 점에서 의미가 큽니다. 검증을 통과한 후보만이 사용자 동의가 전제된 인플레이스 컨테이너 스왑(in-place container swap)을 통해 승격되고, 이후에는 헬스 프로브(health probe) 조건을 만족하지 못하면 자동으로 롤백되도록 설계되어 운영 안전성까지 함께 보장합니다.

이 접근은 기존의 자기 진화 에이전트가 주로 프롬프트, 메모리 스키마, 워크플로 그래프처럼 텍스트로 표현 가능한 영역에서만 개선을 시도했던 것과 달리, 실제 실행 하네스(harness)까지 포함한 시스템 전체를 진화 대상으로 삼는다는 점에서 차별적입니다. 따라서 MOSS는 단순히 더 나은 응답을 생성하는 모델이 아니라, 운영 중인 에이전트 시스템의 구조적 결함을 직접 수정하는 적응 플랫폼으로 이해할 수 있습니다. 특히 결정론적인 파이프라인과 검증-승격-롤백 절차를 결합함으로써, 장기적인 컨텍스트 드리프트(long-context drift)에 취약한 텍스트 중심 방식보다 더 견고한 자기 개선 경로를 제시합니다. 이러한 설계는 자율 에이전트가 실제 서비스 환경에서 안전하게 진화하려면, 학습 능력만이 아니라 배포, 검증, 롤백까지 포함한 시스템 공학적 메커니즘이 함께 필요하다는 점을 분명히 보여줍니다.

실험적으로 MOSS는 OpenClaw에서 네 개 작업에 대한 평균 grader score를 한 번의 진화 사이클만으로 0.25에서 0.61로 끌어올렸으며, 인간의 개입 없이 이러한 향상을 달성했습니다. 이 결과는 소스 수준 재작성이라는 접근이 단지 이론적으로 더 일반적인 것에 그치지 않고, 실제 프로덕션 에이전트 시스템에서도 유의미한 성능 개선으로 이어질 수 있음을 보여줍니다. 결국 이 논문은 자기 진화 에이전트의 범위를 텍스트 조정에서 코드 수준 재구성으로 확장함으로써, 자율 시스템이 반복 실패를 스스로 교정하는 새로운 가능성을 제시합니다.

초록(Abstract)

배포된 이후 자율 에이전트형 시스템은 대체로 정적이다: 이들은 사용자 상호작용으로부터 학습하지 않으며, 반복적으로 발생하는 실패는 다음 인간 주도의 업데이트가 수정 사항을 배포할 때까지 계속 남아 있다. 이에 대응해 자기진화 에이전트가 등장했지만, 이들 역시 진화를 텍스트로 수정 가능한 아티팩트, 즉 스킬 파일, 프롬프트 설정, 메모리 스키마, 워크플로 그래프로만 제한하고 에이전트 하네스는 그대로 둔다. 라우팅, 훅 순서, 상태 불변식, 디스패치는 텍스트 아티팩트가 아니라 코드 안에 존재하므로, 구조적 실패의 한 전체 범주는 텍스트 계층에서 물리적으로 도달할 수 없다. 우리는 소스 수준 적응이 근본적으로 더 일반적인 매체라고 주장한다. 이는 튜링 완전하며, 텍스트로 수정 가능한 모든 범위를 엄격히 포함하는 상위 집합이고, 기반 모델의 준수에 기대는 대신 결정적으로 효과를 발휘하며, 장문 컨텍스트 드리프트에도 약화되지 않는다. 우리는 프로덕션 에이전트형 기반 위에서 소스 수준 자기 재작성(self-rewriting)을 수행하는 시스템 MOSS를 제시한다. 각 진화는 자동으로 선별된 프로덕션 실패 증거 배치에 기반하며, 결정론적 다단계 파이프라인을 거쳐 진행된다. 코드 수정은 플러그형 외부 코딩 에이전트 CLI에 위임되며, MOSS는 단계 순서와 판정을 유지한다. 후보는 일회성 시험 워커에서 배치를 후보 이미지에 재생해 검증한 뒤, 사용자 동의가 필요한 인플레이스 컨테이너 스왑과 헬스 프로브 기반 롤백을 통해 승격된다. OpenClaw에서 MOSS는 인간 개입 없이 한 번의 사이클만에 4개 과제 평균 채점 점수를 0.25에서 0.61로 끌어올린다.

Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.

논문 링크

https://arxiv.org/abs/2605.22794

더 읽어보기

https://github.com/dav-joy-thon/MOSS


비협력 게임을 통한 언어 모델의 안전성 정렬 / Safety Alignment of LMs via Non-cooperative Games

논문 소개

언어 모델(language models, LM)의 안전성 정렬은 유용성을 유지하면서도 악의적인 입력에 견디는 성질을 함께 확보해야 한다는 점에서, 최근 AI 정렬 연구의 핵심 과제로 자리 잡아 왔습니다. 기존의 접근이 주로 공격적 프롬프트를 생성한 뒤 이를 방어하도록 순차적으로 미세조정하는 방식에 머물렀다면, 이 논문은 안전성 정렬을 공격자 LM(Attacker LM)과 방어자 LM(Defender LM)이 서로의 전략에 실시간으로 적응하는 비영합 게임(non-zero-sum game)으로 재정의합니다. 두 모델은 온라인 강화학습(online reinforcement learning, RL)을 통해 공동으로 학습되며, 공격자는 더 정교한 레드팀(red-teaming) 전략을 탐색하고 방어자는 그 공격에 더 견고하게 대응하도록 진화합니다. 이러한 상호 적응 구조는 정적인 데이터셋에 대한 일회성 학습이 아니라, 모델 간 경쟁이 반복되면서 성능 경계 자체를 계속 확장해 간다는 점에서 기존 방식과 뚜렷이 구별됩니다. 특히 저자들은 보상 신호를 점수 기반(point-wise score)으로 두지 않고 쌍대 비교(pairwise comparison)에서 얻은 선호 기반(preference-based) 신호로 설계함으로써, 더 안정적인 감독을 제공하고 보상 해킹(reward hacking)에 대한 취약성을 낮추려 했습니다.

이 방법론의 중심에는 AdvGame이라는 학습 절차가 있으며, 이는 안전성과 유용성 사이의 파레토 프런티어(Pareto frontier)를 더 바깥으로 이동시키는 것을 목표로 합니다. 구체적으로는 공격자와 방어자가 서로의 최신 정책을 반영하며 번갈아 갱신되기 때문에, 방어자는 실제로 더 강한 공격을 상대로 단련되고, 공격자는 특정 모델의 약점에만 국한되지 않는 일반적인 취약점 탐지 능력을 학습하게 됩니다. 부록의 수식 전개는 이러한 게임적 최적화 문제를 실제 학습 가능한 형태로 옮기는 핵심 과정을 보여 주며, 공격자 정책의 최적 분포를 참조 정책(reference policy) 대비 지수 재가중 형태로 표현한 뒤, 정규화 상수를 제거하기 위해 두 후보를 비교하는 방식으로 정리합니다. 이 과정에서 공격자 학습은 절대적인 점수 회귀가 아니라 상대적 선호 순서를 맞추는 문제로 바뀌며, 이는 직접 선호 최적화(Direct Preference Optimization, DPO) 계열 목적함수로 자연스럽게 귀결됩니다. 다시 말해, 공격자가 생성한 프롬프트와 방어자의 응답이 함께 형성하는 trajectory 전체를 비교 대상으로 삼아, 실제 상호작용에 기반한 더 풍부한 학습 신호를 얻는 것입니다.

또한 이 논문은 선호 확률을 브래들리-테리(Bradley-Terry) 모형과 연결하여, 공격자와 방어자 간의 상호작용을 로짓(logit) 공간에서 집약하는 marginalized preference 개념을 도입합니다. 이를 통해 개별 응답의 노이즈를 평균화하면서도, 프롬프트 자체가 아니라 프롬프트와 응답의 결합 효과를 반영하는 선호 구조를 학습할 수 있게 됩니다. 결과적으로 공격자 업데이트는 현재 방어자 정책에 의해 계속 갱신되는 동적 분포 위에서 수행되므로, 고정된 타깃에 특화된 공격이 아니라 다양한 모델에 일반화 가능한 레드팀 능력으로 수렴합니다. 초록이 강조하듯, 이러한 공동 최적화는 더 유용하면서도 더 공격에 강한 방어자 LM을 제공하는 동시에, 실제 배포 환경에서 활용 가능한 강력한 범용 공격자 LM을 함께 산출한다는 점에서 의미가 큽니다. 결국 이 연구는 안전성 정렬을 단순한 방어 기술이 아니라, 모델 간 경쟁과 적응을 체계적으로 활용하는 학습 문제로 확장함으로써, 언어 모델의 안전성과 효용을 동시에 끌어올릴 수 있는 새로운 방법론적 방향을 제시합니다.

초록(Abstract)

언어 모델(LM)의 유용성을 유지하면서 안전성을 보장하는 것은 AI 정렬에서 여전히 핵심적인 과제입니다. 현재의 접근법은 순차적 적대적 학습에 의존하는데, 이는 적대적 프롬프트를 생성한 뒤, 이를 방어하도록 언어 모델을 파인튜닝하는 방식입니다. 우리는 다른 패러다임을 제안합니다. 즉, 안전 정렬을 공격자 LM과 방어자 LM 사이의 비제로섬 게임으로 정식화하고, 두 모델을 온라인 강화학습을 통해 공동으로 학습합니다. 각 LM은 상대의 변화하는 전략에 지속적으로 적응하며, 이를 통해 반복적인 개선이 이루어집니다. 우리의 방법은 점수 기반(point-wise) 점수 대신 쌍대 비교에서 도출한 선호 기반 보상 신호를 사용하여 더 견고한 감독을 제공하고, 보상 해킹을 잠재적으로 줄입니다. RL 레시피인 AdvGame은 안전성과 유용성의 파레토 프런티어를 이동시켜, 동시에 더 도움이 되면서도 적대적 공격에 더 강인한 방어자 LM을 만들어냅니다. 또한, 최종적으로 얻어진 공격자 LM은 강력한 범용 레드팀 테스팅 에이전트로 수렴하여, 임의의 대상 모델을 직접 탐지·검증하는 데 배포할 수 있습니다. 코드는 github.com/facebookresearch/advgame에 있습니다.

Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame.

논문 링크

https://arxiv.org/abs/2512.20806

더 읽어보기

https://github.com/facebookresearch/advgame


계획, 관찰, 복구: 능동적 절차 지원을 위한 벤치마크와 아키텍처 / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

논문 소개

실제 절차형 과업에서는 사용자가 정해진 순서를 항상 그대로 따르지 않기 때문에, 보조 시스템은 단순히 다음 단계를 예측하는 것을 넘어 언제 개입해야 하는지와 어떻게 안내해야 하는지를 함께 판단할 수 있어야 합니다. 이러한 문제의식 위에서 제안된 접근은 사용자의 1인칭 시각 정보, 대화 이력, 질의 맥락을 바탕으로 현재 상황을 해석하고, 계획 이탈(out-of-plan, OOP) 상태에 들어갔는지까지 실시간으로 감지하는 선제적 절차 보조에 초점을 둡니다. 특히 이 연구는 개입 여부와 개입 내용을 분리해 다루는 점이 핵심인데, 이는 타이밍 판단과 코칭 생성이 서로 다른 최적화 목표를 갖기 때문입니다. 사용자가 정상 절차를 벗어났을 때는 조용히 기다리는 것이 아니라 적절한 순간에 짧고 정확한 복귀 지시를 제공해야 하며, 이를 위해 시스템은 절차적 상태와 시각 단서를 함께 추적해야 합니다.

이러한 목표를 뒷받침하기 위해 저자들은 먼저 EgoProactive라는 대규모 웨어러블 1인칭 데이터를 구축하여, 명시적인 계획 이탈 주석과 복귀 단계(recovery steps)를 함께 제공했습니다. 이 데이터셋은 실제 환경에서 발생하는 우회와 오류를 학습 가능하게 만든다는 점에서 의미가 크며, 선형적인 단계 진행만을 가정하던 기존 자원들의 한계를 보완합니다. 또한 Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M 등 다섯 개의 기존 벤치마크를 하나의 선제적 안내 체계로 재구성한 Pro²Bench를 통해, 서로 다른 도메인에서도 개입 타이밍과 복귀 코칭 능력을 일관되게 비교할 수 있는 평가 환경을 마련했습니다. 이는 절차 이해를 단순한 다음 단계 예측 문제가 아니라, 실제 상호작용 품질을 측정하는 문제로 확장했다는 점에서 중요합니다.

모델 측면에서는 계획 담당과 상호작용 담당을 분리한 decoupled planner-interaction architecture를 제안하여, 절차적 상태 추적과 응답 생성을 느슨하게 결합하지 않고 각자의 역할에 맞게 최적화했습니다. 여기에 계획에 고정된(plan-anchored) 클립 선택을 적용해 전체 비디오를 무차별적으로 처리하는 대신, 현재 단계와 복귀 판단에 직접적으로 관련된 시각 구간을 우선적으로 활용하도록 설계했습니다. 이러한 방식은 긴 1인칭 영상에서 불필요한 노이즈를 줄이면서도, 계획 이탈의 징후와 복귀에 필요한 단서를 더 선명하게 포착하게 해 줍니다. 다시 말해, 이 아키텍처는 “무엇을 말할 것인가”와 “무엇을 볼 것인가”를 모두 계획 중심으로 정렬한 구조라고 할 수 있습니다.

또한 사후학습(post-training) 레시피를 통해 이 방법이 특정 모델에만 맞는 특수한 처리가 아니라 다양한 백본에 전이 가능한 일반적 절차임을 보였다는 점도 주목할 만합니다. 실제로 Llama 4와 Qwen-3.6-VL에서 교차 백본 재현을 수행해 방법의 이식 가능성을 검증했으며, 이는 향후 더 강력한 멀티모달 모델에도 손쉽게 확장할 수 있음을 시사합니다. 실험 결과에서는 학습된 Llama-4 시스템이 Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2, Qwen3 VL 235B와 같은 강력한 기준선보다 여섯 개 데이터셋 전반에서 더 높은 객관적 개입 품질(objective intervention quality)을 보였습니다. 특히 오라클 계획(oracle plan) 조건에서는 계획 품질이 통제될 때 복귀 안내 성능이 크게 향상되어, 계획 추적과 개입 생성이 분리된 구조의 타당성을 분명하게 뒷받침했습니다. 종합하면, 이 연구는 절차형 작업을 수행하는 사용자를 위한 멀티모달 조력자를 단계 예측형 시스템이 아니라 실시간 개입형 코치로 재정의하며, 실제 상황에 더 가까운 데이터와 아키텍처, 학습 전략을 함께 제시했다는 점에서 의미가 큽니다.

초록(Abstract)

번역 대상 초록의 구조와 용어를 맞추어, 첫 문장을 바로 한국어로 옮긴 뒤 전체 초록을 자연스럽고 학술적으로 다듬어 번역하겠습니다.
우리는 절차적 작업에서 사용자에게 실시간 단계별 안내를 제공하고, 언제 중단해 개입할지와 어떻게 코칭할지를 자율적으로 결정하는 능동형 멀티모달 어시스턴트 시스템을 구상한다. 그러나 실제 조건, 특히 사용자가 예상된 단계 순서를 벗어나는 흔한 경우를 반영하는 대규모 교차 도메인 벤치마크가 부재하여 진전이 제한되고 있다. 우리는 네 가지 기여를 통해 이 공백을 메운다: (1) 계획 이탈(Out-of-Plan, OOP) 주석과 복구 단계를 명시적으로 포함한, 능동적 절차 지원을 위한 대규모 웨어러블-에고센트릭(wearable-egocentric) 데이터셋 EgoProactive를 공개한다; (2) 통일된 능동 안내 스키마 아래 다섯 개의 기존 벤치마크(Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M)를 Pro^2Bench로 확장한다; (3) 절차적 상태, 시각적 단서, 복구 삽입에 특화된 분리형 플래너--상호작용 아키텍처를 제안한다; (4) 모델 패밀리 전반으로 전이되는 사후학습 레시피를 제시하며, Llama 4와 Qwen-3.6-VL에서의 교차 백본 재현을 통해 이를 검증한다. 대규모 실험에서, 우리가 학습한 Llama-4 시스템은 여섯 개 모든 데이터셋에서 강력한 상용 기준 모델(Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) 및 공개 가중치 기준 모델(Qwen3 VL 235B)보다 객관적 개입 품질을 크게 향상시킨다. 오라클 플랜 실험은 또한 계획 품질을 통제했을 때, 학습된 듀플렉스 모델이 고품질 안내를 생성하고 계획 이탈(OOP) 복구에서 큰 향상을 보인다는 점을 보여준다.

We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery.

논문 링크

https://arxiv.org/abs/2606.04970

더 읽어보기

https://huggingface.co/datasets/facebook/wearable-ai


FuzzingBrain V2: 자동화된 취약점 발견 및 재현을 위한 멀티에이전트 LLM 시스템 / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

논문 소개

소프트웨어 취약점으로 인한 보안 위협이 나날이 심각해지고 있는 가운데, 2025년에만 약 50,000개의 CVE(Common Vulnerabilities and Exposures)가 보고되고 있습니다. 대규모 언어 모델(LLM)이 자동화된 취약점 탐지에 새로운 가능성을 제시하고 있으나, 현존하는 LLM 기반 접근법들은 여전히 해결해야 할 근본적인 문제들을 안고 있습니다. 구체적으로, LLM이 생성한 취약점 보고서들은 높은 거짓 양성률을 보이면서 동시에 재현 가능한 검증 메커니즘이 부족하며, 취약점 정위치 파악을 위해 함수 수준 또는 라인 수준 같은 비최적 세분화 수준을 사용하고 있고, 복잡한 크로스-함수 의존성과 다층적인 트리거 조건을 포함한 취약점들을 효과적으로 처리하기 어렵다는 점입니다. 본 연구에서 제시하는 FuzzingBrain V2는 이러한 도전 과제들을 체계적으로 해결하기 위해 설계된 멀티에이전트 LLM 시스템으로, Google의 OSS-Fuzz 프레임워크를 검증 백엔드로 활용하여 모든 보고된 취약점에 대한 100% 재현성을 보장합니다. 또한 이 시스템은 제어 흐름 정보를 포함한 새로운 추상화인 Suspicious Point를 도입함으로써 함수 수준과 라인 수준 사이의 최적 지점에서 정확한 취약점 정위치 파악을 가능하게 하며, 논리 기반의 계층적 함수 분석과 함께 이중 계층 퍼징 전략을 통해 리소스 제약 하에서 함수 커버리지를 향상시킵니다. 더하여 Model Context Protocol 기반의 정적 및 동적 분석 도구들과 정교한 컨텍스트 엔지니어링을 활용하여 복잡한 취약점 추론을 강화합니다. AIxCC 2025 최종 경쟁의 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했으며, 실제 운영 환경에서는 12개의 오픈소스 프로젝트에 걸쳐 총 41개의 이전에 알려지지 않은 취약점을 발견하여 그 중 26개가 확인되고 23개가 수정되었으며 2개의 CVE 식별자가 할당되는 성과를 이루었습니다. 이러한 결과는 의미론적 분석 능력과 실행 기반 탐지를 결합한 멀티에이전트 접근법이 단순한 학술적 성과를 넘어 실제 프로덕션 소프트웨어의 보안을 직접적으로 개선할 수 있음을 명확히 입증합니다.

초록(Abstract)

소프트웨어 취약점은 심각한 보안 위협을 야기하며, 2025년에 거의 50,000개의 CVE가 보고되었습니다. 대규모 언어 모델(LLM)은 자동화된 취약점 탐지에 유망함을 보여주지만, 세 가지 주요 과제가 남아 있습니다. 첫째, LLM이 생성한 취약점 보고서는 높은 거짓 양성 비율을 보이며 재현 가능한 검증이 부족합니다. 둘째, 기존 LLM 기반 접근 방식은 취약점 위치 파악에 최적이 아닌 세분성을 사용합니다. 함수 수준 분석은 컨텍스트가 광범위할 때 버그를 놓치며, 라인 수준 분석은 충분한 컨텍스트를 제공하지 못합니다. 셋째, 기존 접근 방식은 복잡한 함수 간 의존성과 트리거 조건을 가진 취약점에 대한 추론에 어려움을 겪습니다. 우리는 네 가지 주요 기여를 통해 이러한 격차를 해결하는 다중 에이전트 시스템인 FuzzingBrain V2를 제시합니다: (1) Google의 OSS-Fuzz를 기반으로 하는 완전히 자동화된 취약점 분석으로, 보고된 모든 취약점이 퍼저 재현 가능함을 보장합니다; (2) 정확한 취약점 위치 파악을 위한 새로운 제어 흐름 기반 추상화인 Suspicious Point; (3) 리소스 제약 하에서 함수 커버리지를 향상시키는 이중층 퍼징을 갖춘 논리 기반 계층적 함수 분석; (4) 복잡한 취약점 추론을 강화하는 컨텍스트 엔지니어링을 갖춘 MCP 기반 정적·동적 분석 도구입니다. AIxCC 2025 최종 경쟁 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했습니다. 실제 배포에서 FuzzingBrain V2는 12개의 오픈소스 프로젝트에서 29개의 제로데이 취약점을 발견했으며, 모두 관리자에 의해 확인되고 수정되었으며, 2개가 CVE ID를 할당받았습니다.

Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs.

논문 링크

https://arxiv.org/abs/2605.21779


⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! 텔레그램(Telegram)이나 Slack/Discord/Teams/Dooray/GoogleChat 등으로도 새 글 알림을 받으실 수 있습니다. :D

Read Entire Article