-
GPT-5, Claude, Gemini, Grok, DeepSeek 등 5개의 대형 언어모델이 실제 시장 데이터를 기반으로 8개월간 가상 주식 거래를 수행
- 각 모델은 10만 달러의 모의 자금으로 주요 종목을 일일 단위로 거래하며, 모든 의사결정과 포트폴리오 변화를 기록
- 실험은 2025년 2월 3일부터 10월 20일까지 진행되었으며, 모델이 훈련 시점 이후의 데이터만 접근하도록 시간 필터링된 API 환경을 구축
- 결과적으로 Grok이 최고 수익률, DeepSeek이 근소한 2위, Gemini는 비기술주 중심 포트폴리오로 최하위를 기록
- 연구진은 이번 실험을 시작점으로 삼아, 실시간 거래 및 변수 통제 실험을 통해 LLM의 금융 분석 능력을 체계적으로 검증할 계획
AI Trade Arena 개요
-
AI Trade Arena는 LLM이 실제 금융 데이터를 분석하고 예측하는 능력을 평가하기 위해 구축된 실험 플랫폼
- Kam과 Josh가 공동 개발
- 모델이 뉴스, 재무제표, 시장 데이터를 바탕으로 주식 거래를 수행하도록 설계
- 플랫폼은 각 모델의 보유 종목, 거래 내역, 성과를 추적하며, 모든 거래 과정을 인터랙티브 데모로 공개
첫 번째 실험: 5개 LLM의 주식 거래
- 실험 대상은 GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- 각 모델에 10만 달러의 모의 자금을 지급
-
옵션 거래는 제외, 주요 주식만 거래
- 모든 거래는 실제 과거 주가를 기반으로 수행되며, 모델은 해당 시점에 공개된 정보만 접근
- 뉴스 API, 기업 재무정보, 시장 데이터가 시간 필터링되어 제공
- 실험 기간은 2025년 2월 3일~10월 20일, 약 8개월간 진행
백테스팅의 개념과 한계
- 백테스트는 과거 데이터를 이용해 거래 알고리듬의 성과를 검증하는 방식
- LLM이 과거 시점에서 어떤 결정을 내렸을지를 시뮬레이션
- 미래 데이터가 유출되지 않도록 API를 시계열로 분리
-
장점
- 대규모 모델 평가 가능
- 다양한 시나리오를 빠르게 테스트
- 통계적으로 의미 있는 결과 확보 가능
-
단점
- 현실 시장의 경쟁적·유동성 환경을 완전히 재현하지 못함
-
슬리피지, 거래량 제약, 미래 데이터 누출 위험 존재
- 과거 데이터에 과적합(overfitting) 가능성
실험 결과와 관찰
- 모든 모델은 훈련 데이터 컷오프 이후의 기간만을 대상으로 테스트
- 모델이 과거 시장 결과를 암기한 상태로 거래하지 않도록 설정
-
Grok이 최고 성과, DeepSeek이 근소한 2위
- 대부분의 모델이 기술주 중심 포트폴리오를 구성해 높은 수익률을 기록
-
Gemini는 비기술주 비중이 높아 최하위 성과
- 연구진은 거래 과정과 이유를 모두 공개해 투명성 확보
향후 계획
- 연구진은 백테스트뿐 아니라 실시간 거래 실험으로 확장 예정
- 3단계 접근: 과거 시나리오 백테스트 → 실시간 모의 거래 → 실제 시장 거래
- 목표는 LLM의 금융시장 분석 능력과 의사결정 품질을 체계적으로 이해하는 것
- 시장 데이터를 현실 기반 평가 지표로 활용
-
Barra 요인 분석 등을 통해 운과 실력의 구분 시도
- 거래 기록을 통해 암기 기반 판단과 실제 추론의 차이를 식별 가능
- 예: 단순히 Nvidia를 기억해 매수하는 것과, 10-K 보고서를 분석해 근본적 통찰을 얻는 것의 구분
- 이러한 투명한 의사결정 분석을 통해 모델의 도구 구성과 워크플로우 개선 가능
참여 및 데이터 탐색
- 웹사이트의 인터랙티브 데모에서 각 모델의 거래, 전략, 추론 과정을 직접 탐색 가능
- 연구진은 추가 실험을 계획 중이며, Discord 커뮤니티 및 Twitter DM을 통해 의견을 수집 중