Tokenomics: 에이전트형 소프트웨어 엔지니어링에서 토큰이 어디에 사용되는지 정량화

1 hour ago 1

LLM 기반 다중 에이전트 소프트웨어 개발 시스템의 실행 추적을 SDLC 단계에 매핑해, 토큰 소비가 초기 생성보다 코드 리뷰와 검증에 집중되는 구조를 측정한 연구
ChatDev가 수행한 30개 소프트웨어 개발 태스크에서 코드 리뷰 단계가 평균 59.4% 의 토큰을 사용하며 최대 소비 구간으로 확인
전체 태스크 평균 토큰 구성은 입력 53.9%, 출력 24.4%, 추론 21.6%로, 에이전트 간 반복적 맥락 전달이 큰 communication tax를 형성
코딩 단계는 출력 토큰 비중이 58.0%로 높은 반면, 문서화 단계는 입력 토큰 비중이 80.2%로 높아 개발 단계별 토큰 사용 패턴이 뚜렷하게 구분
비용 예측과 워크플로 최적화를 위해 더 토큰 효율적인 에이전트 협업 프로토콜과 표준화된 평가 프레임워크가 필요한 결론

초록

LLM 기반 다중 에이전트(LLM-MA) 시스템은 요구사항 엔지니어링, 코드 생성, 테스트 같은 복잡한 소프트웨어 엔지니어링 작업 자동화에 점점 더 많이 적용 중
운영 효율과 자원 소비가 충분히 이해되지 않아 예측하기 어려운 비용과 환경 영향이 실제 도입을 가로막는 요인
ChatDev 프레임워크가 GPT-5 reasoning model로 수행한 30개 소프트웨어 개발 태스크의 실행 추적을 분석하고, 내부 단계를 설계, 코딩, 코드 완성, 코드 리뷰, 테스트, 문서화로 매핑
예비 결과에서 반복적 코드 리뷰 단계가 평균 59.4%의 토큰을 차지하며 최대 소비 구간
입력 토큰은 평균 53.9%로 가장 큰 비중을 꾸준히 차지하며, 에이전트 협업에서 상당한 비효율 가능성을 보여주는 실증 근거
에이전트형 소프트웨어 엔지니어링의 주요 비용은 초기 코드 생성이 아니라 자동화된 개선과 검증 과정에 집중
방법론은 비용 예측, 워크플로 최적화, 더 토큰 효율적인 에이전트 협업 프로토콜 연구에 활용 가능

서론

대규모 소프트웨어 엔지니어링은 SDLC 전반의 복잡한 작업 자동화를 위해 LLM 기반 다중 에이전트 시스템을 탐색 중
LLM-MA 프레임워크는 제품 관리자, 아키텍트, 개발자, 테스터 같은 인간 팀 역할을 전문화된 LLM 에이전트로 시뮬레이션하며, 설계·코딩·검증 작업을 협업 방식으로 수행
LLM-MA 시스템은 원칙적으로 작업을 에이전트 사이에 나누어 자율성과 견고성을 높일 수 있음
선행 연구는 LLM-MA 시스템이 발산적 사고를 촉진하고, 추론과 사실성을 강화하며, 단일 에이전트 역량을 넘어서는 문제로 확장될 수 있다고 다룸
소프트웨어 엔지니어링에서는 요구사항부터 테스트까지의 엔드투엔드 워크플로를 통합 방식으로 자동화할 수 있다는 가능성
AGENTTAXO 프레임워크는 일반 LLM-MA 시스템의 토큰 분포를 분석하기 위한 분류 체계를 제공하고, 에이전트 간 상호작용 오버헤드를 설명하는 “communication tax” 개념을 도입
MAST 실패 분류는 LLM-MA 시스템의 많은 문제가 개별 LLM 한계보다 단계 반복, 불완전한 검증 같은 시스템 설계와 조정 문제에서 비롯됨을 확인
기존 연구는 일반 맥락의 에이전트 행동을 분석했지만, 다단계 소프트웨어 엔지니어링 워크플로에 적용된 시스템의 자원 효율에 관한 지식 공백 존재
“토큰이 어디로 가는가”라는 실용 도입의 핵심 질문은 소프트웨어 엔지니어링 영역에서 아직 답변 부족
Tokenomics는 LLM-MA 시스템의 운영 효율과 자원 소비를 연구하는 용어
분석은 ChatDev의 내부 단계를 개발 단계로 매핑해 토큰 소비 분포를 살펴보는 방식
ChatDev는 가상 소프트웨어 회사를 시뮬레이션하며, 프로그래머와 테스터 같은 여러 에이전트 역할이 다중 턴 대화를 통해 SDLC를 완료
30개 실행 추적의 큐레이션 데이터셋과 완전한 복제 패키지 제공

연구 설계

목표와 분석 대상
- 목표는 LLM-MA 시스템이 엔드투엔드 소프트웨어 개발 작업을 수행할 때 토큰 소비가 어떻게 분포하는지 실증적으로 조사하는 것
- 초기 분석 대상은 ChatDev
- ChatDev의 “chat chain” 아키텍처는 설계 → 코딩 → 테스트의 명확한 순차적 폭포수 모델을 나타내며, 단계가 뚜렷해 소프트웨어 개발 단계 매핑에 적합
- ChatDev는 인기 있고 많이 인용된 오픈소스 프레임워크 중 하나
데이터셋 큐레이션
- ChatDev를 30개의 서로 다른 소프트웨어 개발 태스크에 실행
- 프롬프트는 MAST 연구에서 사용한 ProgramDev Dataset에서 수집
- 선택된 프롬프트는 피보나치 수 생성 같은 단순 알고리듬부터 체스 게임 같은 더 복잡한 애플리케이션까지 포함
- 추론 토큰 수가 태스크 복잡도의 대리 지표가 될 수 있다는 최근 연구를 기반으로 다양성 확인
- 30개 태스크의 추론 토큰 소비 범위는 17,280개에서 40,000개까지이며, 이 범위는 연구에 충분한 태스크 복잡도 다양성을 시사
모델 선택
- 모든 에이전트의 기반 모델은 GPT-5 reasoning model
- 선택 기준은 모델의 인기와 최신성, 에이전트형 사용 사례 적합성, 자율 에이전트 기대에 부합하는 강한 추론 능력
- 실험에 사용한 모델 버전은 gpt-5-2025-08-07
- temperature 파라미터는 이 모델에서 지원되지 않아 기본값 1.0 사용
- 컨텍스트 창은 400,000 토큰, 최대 출력 토큰은 128,000 토큰
- 지식 컷오프는 2024년 9월 30일
분석 파이프라인
- 추적 수집 단계에서는 ChatDev를 계측해 30개 태스크 각각의 전체 실행 추적을 로그로 기록
- 각 LLM 호출의 프롬프트, 응답, 입력·출력·추론 토큰 수 포착
- 단계 매핑은 ChatDev의 프레임워크 내부 단계를 보편적 개발 단계로 바꾸는 핵심 방법론
- 이 추상화는 일반화 가능한 분석을 가능하게 하며, 다른 소프트웨어 엔지니어링 LLM-MA 프레임워크로 확장 가능
- 토큰 집계는 Python 스크립트로 수행
- 수집한 추적을 파싱하고, 30회 실행 전체에서 개발 단계별 토큰 수를 합산
- 입력, 출력, 추론 토큰으로 세분화
ChatDev 내부 단계와 개발 단계 매핑
- 설계 단계는 DemandAnalysis, LanguageChoose에 대응하며, 요구사항 이해와 상위 수준 기술 결정에 집중
- 코딩 단계는 Coding에 대응하며, 초기 소스 코드 작성에 직접 관여
- 코드 완성 단계는 CodeComplete에 대응하며, 코딩 단계에서 남은 플레이스홀더나 미완성 코드 파일을 완성
- 코드 리뷰 단계는 CodeReview에 대응하며, 프로그래머 에이전트와 코드 리뷰어 에이전트의 반복 대화로 코드 검토와 수정·개선 수행
- 테스트 단계는 Test에 대응하며, 실행 가능성 버그를 찾고 수정하기 위한 동적 시스템 테스트에 집중
- 문서화 단계는 EnvironmentDoc, Reflection, Manual에 대응하며, 사용자 매뉴얼과 필요한 환경 의존성 문서 생성

연구 결과와 논의

연구 질문
- 핵심 질문은 소프트웨어 개발 태스크에서 LLM-MA 시스템의 토큰 소비 패턴
- 에이전트형 소프트웨어 엔지니어링 시스템의 tokenomics 이해는 실용적이고 지속 가능한 도입에 중요
- 높은 토큰 사용량은 재무 비용, 에너지 소비, 환경 영향 증가로 직접 연결
- SDLC 안에서 토큰이 소비되는 위치를 식별하면 비용 예측과 워크플로 최적화에 활용할 수 있는 “비용 지도” 생성 가능
- 분석은 두 축으로 진행
- 설계, 코딩 등 매핑된 개발 단계별 총 토큰 분포
- 각 단계 안의 입력, 출력, 추론 토큰 비율
발견 1: 코드 리뷰 단계가 토큰 소비를 지배
- 개발 과정 전반의 토큰 사용은 매우 불균등한 분포
- 코드 리뷰 단계는 30개 태스크 전체 평균 59.4%의 토큰을 사용하며 최대 소비 구간
- 코드 완성 단계는 30개 중 6개 태스크에서 발생했고, 해당 실행에서 평균 26.8%의 토큰을 소비
- 문서화 단계는 평균 20.1%, 테스트 단계는 평균 10.3%의 토큰을 소비
- 테스트 단계는 30개 중 12개 태스크에서 발생
- 초기 코딩은 평균 8.6%, 설계는 평균 2.4%로 상대적으로 낮은 비용
- 에이전트형 소프트웨어 엔지니어링의 주요 비용은 초기 코드 생성보다 반복적이고 대화적인 개선·검증 과정에 집중
- 그림의 n 값은 30개 태스크 중 특정 단계가 실행된 태스크 수
- 모든 단계가 항상 실행되지는 않으며, 다중 에이전트 시스템 안의 에이전트가 어떤 단계를 실행할지 자율적으로 결정
- 오차 막대는 ±1 표준편차로, 각 단계의 토큰 소비 변동성을 표시
발견 2: 토큰 소비는 입력 토큰 중심
- 코딩 단계를 제외한 모든 단계에서 입력 토큰이 출력 및 추론 토큰을 크게 초과하는 패턴
- 태스크별 전체 평균 토큰 사용 구성은 입력 53.9%, 출력 24.4%, 추론 21.6%
- 입력 토큰과 출력 토큰의 약 2:1 비율은 선행 연구의 “communication tax”에 대한 강한 실증 근거
- 에이전트가 협업 대화 중 큰 컨텍스트를 반복적으로 전달하며 토큰을 사용
- 현재 에이전트 협업 프로토콜에서는 새로운 출력 생성보다 맥락 전달에 토큰 대부분을 쓰는 비효율 존재
- communication tax는 대화형 다중 에이전트 아키텍처의 고유 특성일 수 있으며, 향후 추가 연구 대상
발견 3: 개발 단계별 tokenomic profile 차이
- 단계별 토큰 비율은 소프트웨어 엔지니어링 활동마다 고유한 패턴을 형성
- 코딩 단계는 출력 중심의 예외 구간으로, 출력 58.0%, 입력 6.9%
- 코딩 단계의 출력 중심 구조는 간결한 설계 명세에서 장문의 소스 코드를 생성하는 작업 특성과 일치
- 코드 리뷰와 문서화 같은 검증·문서화 단계는 입력 중심
- 코드 리뷰 입력 비중 51.4%
- 문서화 입력 비중 80.2%
- 해당 단계들은 기존 코드를 큰 컨텍스트로 소비하고, 더 작은 분석적 출력을 생성
- 단계별 토큰 프로필은 엔지니어링 활동별 비용 지도로 활용 가능
- 실무자는 비용 예측과 프로세스 최적화 기회를 더 잘 식별 가능
단계별 토큰 비율
- 설계 단계 평균 비율은 입력 60.4%, 출력 3.6%, 추론 36.0%
- 코딩 단계 평균 비율은 입력 6.9%, 출력 58.0%, 추론 35.1%
- 코드 완성 단계 평균 비율은 입력 47.7%, 출력 41.7%, 추론 10.5%
- 코드 리뷰 단계 평균 비율은 입력 51.4%, 출력 24.7%, 추론 23.9%
- 테스트 단계 평균 비율은 입력 60.8%, 출력 20.7%, 추론 18.4%
- 문서화 단계 평균 비율은 입력 80.2%, 출력 8.3%, 추론 11.5%
- 태스크별 전체 평균 비율은 입력 53.9%, 출력 24.4%, 추론 21.6%
논의
- 예비 결과는 에이전트형 소프트웨어 개발의 초기 비용 지도를 제공
- 코드 리뷰 단계의 큰 토큰 비용은 “대화 비용”으로 해석 가능
- 이 비용은 에이전트가 전체 코드 컨텍스트를 반복적으로 주고받으며 코드를 개선하는 LLM-MA 시스템의 대화형 아키텍처에서 직접 발생
- 현재 검증용 에이전트 협업 프로토콜은 작은 수정이 필요한 작업에도 방대한 자원을 소비할 수 있어 매우 비효율적
- MAST 분류의 검증 실패와 단계 반복 관련 결과와도 정렬
- 높은 토큰 사용량은 에이전트 시스템이 내재된 조정 문제를 강행식 대화로 극복하려는 증상일 수 있음
- 실무자는 에이전트 기반 프로젝트 비용을 필요한 작업 유형에 따라 추정 가능
- 초기 코딩 비중이 큰 그린필드 프로젝트와 기존 코드 리팩터링·디버깅 중심 프로젝트는 다른 비용 구조
- 기존 코드 리팩터링·디버깅 중심 프로젝트는 비싸고 입력 중심인 코드 리뷰 사이클이 비용을 지배
- 코드 리뷰 단계 전에 “human-in-the-loop” 체크포인트를 통합하면 비용이 큰 반복 루프를 막고 경제적·계산 효율을 높이는 설계 결정에 활용 가능
- 연구 과제는 검증과 개선을 위한 더 토큰 효율적인 협업 프로토콜 설계
- 단순한 전체 컨텍스트 전달을 넘어서는 방식 필요
- 표준화되고 포괄적인 평가 프레임워크 필요
- 이 프레임워크는 ChatDev의 계층적 대화형 워크플로와 MetaGPT의 SOP 기반 조립 라인 같은 서로 다른 LLM-MA 아키텍처의 효율을 벤치마크하고 비교하는 공통 기반 역할 가능
- 프레임워크별 동작을 보편적 소프트웨어 엔지니어링 활동으로 번역하는 “Rosetta Stone” 역할 가능

타당성 위협과 향후 과제

타당성 위협
- 분석은 단일 LLM-MA 시스템인 ChatDev와 단일 LLM인 GPT-5 Reasoning Model에 기반
- 관찰된 토큰 소비 패턴은 다른 LLM-MA 아키텍처나 토큰 효율이 다른 LLM에서 달라질 수 있음
- 30개 소프트웨어 개발 태스크는 다양하지만 가능한 모든 소프트웨어 개발 시나리오와 복잡도를 대표하지 못할 수 있음
- 큐레이션 데이터셋 규모는 소프트웨어 엔지니어링 특화 에이전트 추적의 공개 대규모 벤치마크 부족에서 직접 발생
- 데이터 큐레이션은 시간과 비용이 많이 드는 과정
- 일부 개발 단계는 30개 태스크 중 작은 하위 집합에서만 실행
- 코드 완성은 n=6, 테스트는 n=12로 드물게 트리거
- 이 특정 단계들의 tokenomic profile 결론은 작은 표본에 기반하므로 대표성이 낮을 수 있고 일반화 가능성 제한
- ChatDev 내부 단계를 소프트웨어 개발 단계로 매핑한 방식은 추상화
- 표준화된 평가 프레임워크를 만들기 위한 논리적이고 유용한 매핑이지만, 에이전트 활동을 매핑하는 여러 가능한 방식 중 하나
결론과 향후 과제
- 에이전트형 소프트웨어 엔지니어링에서 토큰 비용은 균등하게 분포하지 않고, 반복적이고 대화적인 코드 리뷰 단계에 압도적으로 집중
- “communication tax”를 구성하는 입력 토큰이 전체 토큰 사용의 대부분을 차지하며, 향후 최적화의 핵심 영역
- 향후 작업의 첫 번째 과제는 더 많은 태스크로 데이터셋을 확장해 일반화 가능성 개선
- 두 번째 과제는 다른 LLM으로 분석을 확장해 모델별 효과 파악
- 세 번째 과제는 다른 LLM-MA 시스템으로 분석을 확장해 아키텍처 차이가 tokenomics에 미치는 영향 비교
- 네 번째 과제는 토큰 소비 패턴과 실패 모드 사이의 관계 조사
- 다섯 번째 과제는 소프트웨어 엔지니어링 에이전트 효율 벤치마킹을 위한 견고하고 보편적인 개발 단계 매핑 프레임워크의 추가 개발과 검증