Tokenomics: 에이전트형 소프트웨어 엔지니어링에서 토큰이 어디에 사용되는지 정량화

1 hour ago 1
  • LLM 기반 다중 에이전트 소프트웨어 개발 시스템의 실행 추적을 SDLC 단계에 매핑해, 토큰 소비가 초기 생성보다 코드 리뷰와 검증에 집중되는 구조를 측정한 연구
  • ChatDev가 수행한 30개 소프트웨어 개발 태스크에서 코드 리뷰 단계가 평균 59.4% 의 토큰을 사용하며 최대 소비 구간으로 확인
  • 전체 태스크 평균 토큰 구성은 입력 53.9%, 출력 24.4%, 추론 21.6%로, 에이전트 간 반복적 맥락 전달이 큰 communication tax를 형성
  • 코딩 단계는 출력 토큰 비중이 58.0%로 높은 반면, 문서화 단계는 입력 토큰 비중이 80.2%로 높아 개발 단계별 토큰 사용 패턴이 뚜렷하게 구분
  • 비용 예측과 워크플로 최적화를 위해 더 토큰 효율적인 에이전트 협업 프로토콜과 표준화된 평가 프레임워크가 필요한 결론

초록

  • LLM 기반 다중 에이전트(LLM-MA) 시스템은 요구사항 엔지니어링, 코드 생성, 테스트 같은 복잡한 소프트웨어 엔지니어링 작업 자동화에 점점 더 많이 적용 중
  • 운영 효율과 자원 소비가 충분히 이해되지 않아 예측하기 어려운 비용과 환경 영향이 실제 도입을 가로막는 요인
  • ChatDev 프레임워크가 GPT-5 reasoning model로 수행한 30개 소프트웨어 개발 태스크의 실행 추적을 분석하고, 내부 단계를 설계, 코딩, 코드 완성, 코드 리뷰, 테스트, 문서화로 매핑
  • 예비 결과에서 반복적 코드 리뷰 단계가 평균 59.4%의 토큰을 차지하며 최대 소비 구간
  • 입력 토큰은 평균 53.9%로 가장 큰 비중을 꾸준히 차지하며, 에이전트 협업에서 상당한 비효율 가능성을 보여주는 실증 근거
  • 에이전트형 소프트웨어 엔지니어링의 주요 비용은 초기 코드 생성이 아니라 자동화된 개선과 검증 과정에 집중
  • 방법론은 비용 예측, 워크플로 최적화, 더 토큰 효율적인 에이전트 협업 프로토콜 연구에 활용 가능

서론

  • 대규모 소프트웨어 엔지니어링은 SDLC 전반의 복잡한 작업 자동화를 위해 LLM 기반 다중 에이전트 시스템을 탐색 중
  • LLM-MA 프레임워크는 제품 관리자, 아키텍트, 개발자, 테스터 같은 인간 팀 역할을 전문화된 LLM 에이전트로 시뮬레이션하며, 설계·코딩·검증 작업을 협업 방식으로 수행
  • LLM-MA 시스템은 원칙적으로 작업을 에이전트 사이에 나누어 자율성과 견고성을 높일 수 있음
  • 선행 연구는 LLM-MA 시스템이 발산적 사고를 촉진하고, 추론과 사실성을 강화하며, 단일 에이전트 역량을 넘어서는 문제로 확장될 수 있다고 다룸
  • 소프트웨어 엔지니어링에서는 요구사항부터 테스트까지의 엔드투엔드 워크플로를 통합 방식으로 자동화할 수 있다는 가능성
  • AGENTTAXO 프레임워크는 일반 LLM-MA 시스템의 토큰 분포를 분석하기 위한 분류 체계를 제공하고, 에이전트 간 상호작용 오버헤드를 설명하는 “communication tax” 개념을 도입
  • MAST 실패 분류는 LLM-MA 시스템의 많은 문제가 개별 LLM 한계보다 단계 반복, 불완전한 검증 같은 시스템 설계와 조정 문제에서 비롯됨을 확인
  • 기존 연구는 일반 맥락의 에이전트 행동을 분석했지만, 다단계 소프트웨어 엔지니어링 워크플로에 적용된 시스템의 자원 효율에 관한 지식 공백 존재
  • “토큰이 어디로 가는가”라는 실용 도입의 핵심 질문은 소프트웨어 엔지니어링 영역에서 아직 답변 부족
  • Tokenomics는 LLM-MA 시스템의 운영 효율과 자원 소비를 연구하는 용어
  • 분석은 ChatDev의 내부 단계를 개발 단계로 매핑해 토큰 소비 분포를 살펴보는 방식
  • ChatDev는 가상 소프트웨어 회사를 시뮬레이션하며, 프로그래머와 테스터 같은 여러 에이전트 역할이 다중 턴 대화를 통해 SDLC를 완료
  • 30개 실행 추적의 큐레이션 데이터셋과 완전한 복제 패키지 제공

연구 설계

  • 목표와 분석 대상

    • 목표는 LLM-MA 시스템이 엔드투엔드 소프트웨어 개발 작업을 수행할 때 토큰 소비가 어떻게 분포하는지 실증적으로 조사하는 것
    • 초기 분석 대상은 ChatDev
    • ChatDev의 “chat chain” 아키텍처는 설계 → 코딩 → 테스트의 명확한 순차적 폭포수 모델을 나타내며, 단계가 뚜렷해 소프트웨어 개발 단계 매핑에 적합
    • ChatDev는 인기 있고 많이 인용된 오픈소스 프레임워크 중 하나
  • 데이터셋 큐레이션

    • ChatDev를 30개의 서로 다른 소프트웨어 개발 태스크에 실행
    • 프롬프트는 MAST 연구에서 사용한 ProgramDev Dataset에서 수집
    • 선택된 프롬프트는 피보나치 수 생성 같은 단순 알고리듬부터 체스 게임 같은 더 복잡한 애플리케이션까지 포함
    • 추론 토큰 수가 태스크 복잡도의 대리 지표가 될 수 있다는 최근 연구를 기반으로 다양성 확인
    • 30개 태스크의 추론 토큰 소비 범위는 17,280개에서 40,000개까지이며, 이 범위는 연구에 충분한 태스크 복잡도 다양성을 시사
  • 모델 선택

    • 모든 에이전트의 기반 모델은 GPT-5 reasoning model
    • 선택 기준은 모델의 인기와 최신성, 에이전트형 사용 사례 적합성, 자율 에이전트 기대에 부합하는 강한 추론 능력
    • 실험에 사용한 모델 버전은 gpt-5-2025-08-07
    • temperature 파라미터는 이 모델에서 지원되지 않아 기본값 1.0 사용
    • 컨텍스트 창은 400,000 토큰, 최대 출력 토큰은 128,000 토큰
    • 지식 컷오프는 2024년 9월 30일
  • 분석 파이프라인

    • 추적 수집 단계에서는 ChatDev를 계측해 30개 태스크 각각의 전체 실행 추적을 로그로 기록
    • 각 LLM 호출의 프롬프트, 응답, 입력·출력·추론 토큰 수 포착
    • 단계 매핑은 ChatDev의 프레임워크 내부 단계를 보편적 개발 단계로 바꾸는 핵심 방법론
    • 이 추상화는 일반화 가능한 분석을 가능하게 하며, 다른 소프트웨어 엔지니어링 LLM-MA 프레임워크로 확장 가능
    • 토큰 집계는 Python 스크립트로 수행
    • 수집한 추적을 파싱하고, 30회 실행 전체에서 개발 단계별 토큰 수를 합산
    • 입력, 출력, 추론 토큰으로 세분화
  • ChatDev 내부 단계와 개발 단계 매핑

    • 설계 단계는 DemandAnalysis, LanguageChoose에 대응하며, 요구사항 이해와 상위 수준 기술 결정에 집중
    • 코딩 단계는 Coding에 대응하며, 초기 소스 코드 작성에 직접 관여
    • 코드 완성 단계는 CodeComplete에 대응하며, 코딩 단계에서 남은 플레이스홀더나 미완성 코드 파일을 완성
    • 코드 리뷰 단계는 CodeReview에 대응하며, 프로그래머 에이전트와 코드 리뷰어 에이전트의 반복 대화로 코드 검토와 수정·개선 수행
    • 테스트 단계는 Test에 대응하며, 실행 가능성 버그를 찾고 수정하기 위한 동적 시스템 테스트에 집중
    • 문서화 단계는 EnvironmentDoc, Reflection, Manual에 대응하며, 사용자 매뉴얼과 필요한 환경 의존성 문서 생성

연구 결과와 논의

  • 연구 질문

    • 핵심 질문은 소프트웨어 개발 태스크에서 LLM-MA 시스템의 토큰 소비 패턴
    • 에이전트형 소프트웨어 엔지니어링 시스템의 tokenomics 이해는 실용적이고 지속 가능한 도입에 중요
    • 높은 토큰 사용량은 재무 비용, 에너지 소비, 환경 영향 증가로 직접 연결
    • SDLC 안에서 토큰이 소비되는 위치를 식별하면 비용 예측과 워크플로 최적화에 활용할 수 있는 “비용 지도” 생성 가능
    • 분석은 두 축으로 진행
    • 설계, 코딩 등 매핑된 개발 단계별 총 토큰 분포
    • 각 단계 안의 입력, 출력, 추론 토큰 비율
  • 발견 1: 코드 리뷰 단계가 토큰 소비를 지배

    • 개발 과정 전반의 토큰 사용은 매우 불균등한 분포
    • 코드 리뷰 단계는 30개 태스크 전체 평균 59.4%의 토큰을 사용하며 최대 소비 구간
    • 코드 완성 단계는 30개 중 6개 태스크에서 발생했고, 해당 실행에서 평균 26.8%의 토큰을 소비
    • 문서화 단계는 평균 20.1%, 테스트 단계는 평균 10.3%의 토큰을 소비
    • 테스트 단계는 30개 중 12개 태스크에서 발생
    • 초기 코딩은 평균 8.6%, 설계는 평균 2.4%로 상대적으로 낮은 비용
    • 에이전트형 소프트웨어 엔지니어링의 주요 비용은 초기 코드 생성보다 반복적이고 대화적인 개선·검증 과정에 집중
    • 그림의 n 값은 30개 태스크 중 특정 단계가 실행된 태스크 수
    • 모든 단계가 항상 실행되지는 않으며, 다중 에이전트 시스템 안의 에이전트가 어떤 단계를 실행할지 자율적으로 결정
    • 오차 막대는 ±1 표준편차로, 각 단계의 토큰 소비 변동성을 표시
  • 발견 2: 토큰 소비는 입력 토큰 중심

    • 코딩 단계를 제외한 모든 단계에서 입력 토큰이 출력 및 추론 토큰을 크게 초과하는 패턴
    • 태스크별 전체 평균 토큰 사용 구성은 입력 53.9%, 출력 24.4%, 추론 21.6%
    • 입력 토큰과 출력 토큰의 약 2:1 비율은 선행 연구의 “communication tax”에 대한 강한 실증 근거
    • 에이전트가 협업 대화 중 큰 컨텍스트를 반복적으로 전달하며 토큰을 사용
    • 현재 에이전트 협업 프로토콜에서는 새로운 출력 생성보다 맥락 전달에 토큰 대부분을 쓰는 비효율 존재
    • communication tax는 대화형 다중 에이전트 아키텍처의 고유 특성일 수 있으며, 향후 추가 연구 대상
  • 발견 3: 개발 단계별 tokenomic profile 차이

    • 단계별 토큰 비율은 소프트웨어 엔지니어링 활동마다 고유한 패턴을 형성
    • 코딩 단계는 출력 중심의 예외 구간으로, 출력 58.0%, 입력 6.9%
    • 코딩 단계의 출력 중심 구조는 간결한 설계 명세에서 장문의 소스 코드를 생성하는 작업 특성과 일치
    • 코드 리뷰와 문서화 같은 검증·문서화 단계는 입력 중심
    • 코드 리뷰 입력 비중 51.4%
    • 문서화 입력 비중 80.2%
    • 해당 단계들은 기존 코드를 큰 컨텍스트로 소비하고, 더 작은 분석적 출력을 생성
    • 단계별 토큰 프로필은 엔지니어링 활동별 비용 지도로 활용 가능
    • 실무자는 비용 예측과 프로세스 최적화 기회를 더 잘 식별 가능
  • 단계별 토큰 비율

    • 설계 단계 평균 비율은 입력 60.4%, 출력 3.6%, 추론 36.0%
    • 코딩 단계 평균 비율은 입력 6.9%, 출력 58.0%, 추론 35.1%
    • 코드 완성 단계 평균 비율은 입력 47.7%, 출력 41.7%, 추론 10.5%
    • 코드 리뷰 단계 평균 비율은 입력 51.4%, 출력 24.7%, 추론 23.9%
    • 테스트 단계 평균 비율은 입력 60.8%, 출력 20.7%, 추론 18.4%
    • 문서화 단계 평균 비율은 입력 80.2%, 출력 8.3%, 추론 11.5%
    • 태스크별 전체 평균 비율은 입력 53.9%, 출력 24.4%, 추론 21.6%
  • 논의

    • 예비 결과는 에이전트형 소프트웨어 개발의 초기 비용 지도를 제공
    • 코드 리뷰 단계의 큰 토큰 비용은 “대화 비용”으로 해석 가능
    • 이 비용은 에이전트가 전체 코드 컨텍스트를 반복적으로 주고받으며 코드를 개선하는 LLM-MA 시스템의 대화형 아키텍처에서 직접 발생
    • 현재 검증용 에이전트 협업 프로토콜은 작은 수정이 필요한 작업에도 방대한 자원을 소비할 수 있어 매우 비효율적
    • MAST 분류의 검증 실패와 단계 반복 관련 결과와도 정렬
    • 높은 토큰 사용량은 에이전트 시스템이 내재된 조정 문제를 강행식 대화로 극복하려는 증상일 수 있음
    • 실무자는 에이전트 기반 프로젝트 비용을 필요한 작업 유형에 따라 추정 가능
    • 초기 코딩 비중이 큰 그린필드 프로젝트와 기존 코드 리팩터링·디버깅 중심 프로젝트는 다른 비용 구조
    • 기존 코드 리팩터링·디버깅 중심 프로젝트는 비싸고 입력 중심인 코드 리뷰 사이클이 비용을 지배
    • 코드 리뷰 단계 전에 “human-in-the-loop” 체크포인트를 통합하면 비용이 큰 반복 루프를 막고 경제적·계산 효율을 높이는 설계 결정에 활용 가능
    • 연구 과제는 검증과 개선을 위한 더 토큰 효율적인 협업 프로토콜 설계
    • 단순한 전체 컨텍스트 전달을 넘어서는 방식 필요
    • 표준화되고 포괄적인 평가 프레임워크 필요
    • 이 프레임워크는 ChatDev의 계층적 대화형 워크플로와 MetaGPT의 SOP 기반 조립 라인 같은 서로 다른 LLM-MA 아키텍처의 효율을 벤치마크하고 비교하는 공통 기반 역할 가능
    • 프레임워크별 동작을 보편적 소프트웨어 엔지니어링 활동으로 번역하는 “Rosetta Stone” 역할 가능

타당성 위협과 향후 과제

  • 타당성 위협

    • 분석은 단일 LLM-MA 시스템인 ChatDev와 단일 LLM인 GPT-5 Reasoning Model에 기반
    • 관찰된 토큰 소비 패턴은 다른 LLM-MA 아키텍처나 토큰 효율이 다른 LLM에서 달라질 수 있음
    • 30개 소프트웨어 개발 태스크는 다양하지만 가능한 모든 소프트웨어 개발 시나리오와 복잡도를 대표하지 못할 수 있음
    • 큐레이션 데이터셋 규모는 소프트웨어 엔지니어링 특화 에이전트 추적의 공개 대규모 벤치마크 부족에서 직접 발생
    • 데이터 큐레이션은 시간과 비용이 많이 드는 과정
    • 일부 개발 단계는 30개 태스크 중 작은 하위 집합에서만 실행
    • 코드 완성은 n=6, 테스트는 n=12로 드물게 트리거
    • 이 특정 단계들의 tokenomic profile 결론은 작은 표본에 기반하므로 대표성이 낮을 수 있고 일반화 가능성 제한
    • ChatDev 내부 단계를 소프트웨어 개발 단계로 매핑한 방식은 추상화
    • 표준화된 평가 프레임워크를 만들기 위한 논리적이고 유용한 매핑이지만, 에이전트 활동을 매핑하는 여러 가능한 방식 중 하나
  • 결론과 향후 과제

    • 에이전트형 소프트웨어 엔지니어링에서 토큰 비용은 균등하게 분포하지 않고, 반복적이고 대화적인 코드 리뷰 단계에 압도적으로 집중
    • “communication tax”를 구성하는 입력 토큰이 전체 토큰 사용의 대부분을 차지하며, 향후 최적화의 핵심 영역
    • 향후 작업의 첫 번째 과제는 더 많은 태스크로 데이터셋을 확장해 일반화 가능성 개선
    • 두 번째 과제는 다른 LLM으로 분석을 확장해 모델별 효과 파악
    • 세 번째 과제는 다른 LLM-MA 시스템으로 분석을 확장해 아키텍처 차이가 tokenomics에 미치는 영향 비교
    • 네 번째 과제는 토큰 소비 패턴과 실패 모드 사이의 관계 조사
    • 다섯 번째 과제는 소프트웨어 엔지니어링 에이전트 효율 벤치마킹을 위한 견고하고 보편적인 개발 단계 매핑 프레임워크의 추가 개발과 검증
Read Entire Article