기존 KV 압축 기법 대비 최대 25% 추가 절감, 성능은 오히려 개선 — CASK

5 hours ago 1

CASK는 LLM 추론 과정에서 발생하는 KV cache 증가 문제를 해결하기 위해
기존의 token importance 기반 pruning 방식이 아닌,
구조적(role-based) 접근을 제안하는 논문

본 연구는 단 5일 만에 도출되었으며, 지도교수 없이 진행된 개인 연구자 2인의 결과라는 점에서도 주목할 만함

📌 문제 정의

긴 chain-of-thought 추론 시 KV cache가 빠르게 증가하며:

메모리 사용량 급증
추론 latency 증가
장기 reasoning 성능 저하

기존 방식:

token importance scoring 기반
낮은 점수 토큰을 eviction

❌ 기존 방식의 한계

논문 실험 결과:

importance scoring을 정교하게 개선해도
→ 실제 유지되는 토큰 집합 변화가 제한적

즉,

eviction 전략 개선만으로는
성능 및 효율 개선에 한계 존재

🔥 핵심 아이디어

CASK는 토큰을 중요도가 아닌 역할 기반으로 분리

Core

최종 출력 생성에 직접 기여
reasoning의 핵심 상태
항상 유지

Scratch

중간 계산, 탐색 과정에서 생성되는 상태
중복 및 불필요 정보 포함 가능
압축 및 병합 대상

⚙️ 동작 방식

Prefix Phase

입력(prompt) 구간
일부 KV eviction 수행

Decode Phase

추론 진행 구간
Scratch 영역만 선택적 compression 적용

👉 기존 대비 차이:

단순 삭제 → 선별적 보존 + 구조적 압축

📊 성능

논문 결과 기준:

기존 KV 압축 기법 대비
→ 최대 25% 추가 메모리 절감
동일 KV cache budget에서
→ 더 높은 정확도 유지
일부 구간에서는
→ 더 적은 KV cache로 더 높은 성능 달성

예:

CASK (KV 384) > 기존 방식 (KV 512)

👉 메모리 사용량 감소 + 성능 향상 동시 달성

📌 기술적 특징

token-level pruning → structure-aware compression
eviction 중심 → preserve + reuse 전략
reasoning 과정에서 정보 재사용 강화

📌 의미

CASK는 KV cache 최적화를

“얼마나 버릴 것인가”에서
“무엇을 반드시 유지할 것인가”로 전환

시키는 접근

🚀 요약

최대 25% KV cache 추가 절감
동일 또는 더 높은 추론 성능 확보
구조 기반 KV 관리 방식 제시

Read Entire Article

기존 KV 압축 기법 대비 최대 25% 추가 절감, 성능은 오히려 개선 — CASK

📌 문제 정의

❌ 기존 방식의 한계

🔥 핵심 아이디어

Core

Scratch

⚙️ 동작 방식

Prefix Phase

Decode Phase

📊 성능

📌 기술적 특징

📌 의미

🚀 요약

Related

올해의 해킹 타임라인은 미쳤다

Windows 11에서 Copilot이 제거되는 것이 아니라 이름만 바뀌는 것

Linux 커널 7.0 공식 릴리스

tmux를 보기 좋고 사용하기 쉽게 만드는 방법 (2024)

158년 된 가정 증류 금지법, 미국 항소법원서 위헌 판결

Show GN: 멋쮠 mcp 한국 리스트

Show GN: S3V: S3 GUI 클라이언트

아무 일도 일어나지 않는다: 비스포츠형 Polymarket 시장에서 항상 ‘No’를 매수하는 봇

Tips

게임 정보

취업 정보

온라인 툴

유용한 정보

유튜브

Popular

롯데 최준용, 시범경기 첫 등판…김원중도 출격 예고

아시아축구연맹, 2031·2035 아시안컵 개최지 선정 절차 중단(종합)

Common Challenges When Adopting SAP BRIM and How to Think Ab...

Why Government Agencies Should Modernize Integrations With a...

[부음] 정병묵(이데일리 산업부 차장)씨 장모상

Haleon Chooses SAP Solutions to Accelerate Growth Through Te...

SAP Scenario Based Assessment 2026: The Definitive Guide

Choose Your Hero: Team Liquid Turns to SAP’s Joule to Unlock...

SAP Showcases New AI Capabilities, Integrated Travel and Exp...

SAP Recognized as a Six-Time Leader in the 2026 Gartner® Mag...