8개월간 5개의 LLM에 10만 달러씩 맡겨 주식 거래를 시뮬레이션한 실험

4 days ago 4

  • GPT-5, Claude, Gemini, Grok, DeepSeek 등 5개의 대형 언어모델이 실제 시장 데이터를 기반으로 8개월간 가상 주식 거래를 수행
  • 각 모델은 10만 달러의 모의 자금으로 주요 종목을 일일 단위로 거래하며, 모든 의사결정과 포트폴리오 변화를 기록
  • 실험은 2025년 2월 3일부터 10월 20일까지 진행되었으며, 모델이 훈련 시점 이후의 데이터만 접근하도록 시간 필터링된 API 환경을 구축
  • 결과적으로 Grok이 최고 수익률, DeepSeek이 근소한 2위, Gemini는 비기술주 중심 포트폴리오로 최하위를 기록
  • 연구진은 이번 실험을 시작점으로 삼아, 실시간 거래 및 변수 통제 실험을 통해 LLM의 금융 분석 능력을 체계적으로 검증할 계획

AI Trade Arena 개요

  • AI Trade Arena는 LLM이 실제 금융 데이터를 분석하고 예측하는 능력을 평가하기 위해 구축된 실험 플랫폼
    • Kam과 Josh가 공동 개발
    • 모델이 뉴스, 재무제표, 시장 데이터를 바탕으로 주식 거래를 수행하도록 설계
  • 플랫폼은 각 모델의 보유 종목, 거래 내역, 성과를 추적하며, 모든 거래 과정을 인터랙티브 데모로 공개

첫 번째 실험: 5개 LLM의 주식 거래

  • 실험 대상은 GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
    • 각 모델에 10만 달러의 모의 자금을 지급
    • 옵션 거래는 제외, 주요 주식만 거래
  • 모든 거래는 실제 과거 주가를 기반으로 수행되며, 모델은 해당 시점에 공개된 정보만 접근
    • 뉴스 API, 기업 재무정보, 시장 데이터가 시간 필터링되어 제공
  • 실험 기간은 2025년 2월 3일~10월 20일, 약 8개월간 진행

백테스팅의 개념과 한계

  • 백테스트는 과거 데이터를 이용해 거래 알고리듬의 성과를 검증하는 방식
    • LLM이 과거 시점에서 어떤 결정을 내렸을지를 시뮬레이션
    • 미래 데이터가 유출되지 않도록 API를 시계열로 분리
  • 장점
    • 대규모 모델 평가 가능
    • 다양한 시나리오를 빠르게 테스트
    • 통계적으로 의미 있는 결과 확보 가능
  • 단점
    • 현실 시장의 경쟁적·유동성 환경을 완전히 재현하지 못함
    • 슬리피지, 거래량 제약, 미래 데이터 누출 위험 존재
    • 과거 데이터에 과적합(overfitting) 가능성

실험 결과와 관찰

  • 모든 모델은 훈련 데이터 컷오프 이후의 기간만을 대상으로 테스트
    • 모델이 과거 시장 결과를 암기한 상태로 거래하지 않도록 설정
  • Grok이 최고 성과, DeepSeek이 근소한 2위
    • 대부분의 모델이 기술주 중심 포트폴리오를 구성해 높은 수익률을 기록
    • Gemini는 비기술주 비중이 높아 최하위 성과
  • 연구진은 거래 과정과 이유를 모두 공개해 투명성 확보
    • 각 거래의 근거를 UI에서 직접 확인 가능

향후 계획

  • 연구진은 백테스트뿐 아니라 실시간 거래 실험으로 확장 예정
    • 3단계 접근: 과거 시나리오 백테스트 → 실시간 모의 거래 → 실제 시장 거래
  • 목표는 LLM의 금융시장 분석 능력과 의사결정 품질을 체계적으로 이해하는 것
    • 시장 데이터를 현실 기반 평가 지표로 활용
    • Barra 요인 분석 등을 통해 운과 실력의 구분 시도
  • 거래 기록을 통해 암기 기반 판단과 실제 추론의 차이를 식별 가능
    • 예: 단순히 Nvidia를 기억해 매수하는 것과, 10-K 보고서를 분석해 근본적 통찰을 얻는 것의 구분
  • 이러한 투명한 의사결정 분석을 통해 모델의 도구 구성과 워크플로우 개선 가능

참여 및 데이터 탐색

  • 웹사이트의 인터랙티브 데모에서 각 모델의 거래, 전략, 추론 과정을 직접 탐색 가능
  • 연구진은 추가 실험을 계획 중이며, Discord 커뮤니티 및 Twitter DM을 통해 의견을 수집 중

Read Entire Article