8개월간 5개의 LLM에 10만 달러씩 맡겨 주식 거래를 시뮬레이션한 실험

4 days ago 4

GPT-5, Claude, Gemini, Grok, DeepSeek 등 5개의 대형 언어모델이 실제 시장 데이터를 기반으로 8개월간 가상 주식 거래를 수행
각 모델은 10만 달러의 모의 자금으로 주요 종목을 일일 단위로 거래하며, 모든 의사결정과 포트폴리오 변화를 기록
실험은 2025년 2월 3일부터 10월 20일까지 진행되었으며, 모델이 훈련 시점 이후의 데이터만 접근하도록 시간 필터링된 API 환경을 구축
결과적으로 Grok이 최고 수익률, DeepSeek이 근소한 2위, Gemini는 비기술주 중심 포트폴리오로 최하위를 기록
연구진은 이번 실험을 시작점으로 삼아, 실시간 거래 및 변수 통제 실험을 통해 LLM의 금융 분석 능력을 체계적으로 검증할 계획

AI Trade Arena 개요

AI Trade Arena는 LLM이 실제 금융 데이터를 분석하고 예측하는 능력을 평가하기 위해 구축된 실험 플랫폼
- Kam과 Josh가 공동 개발
- 모델이 뉴스, 재무제표, 시장 데이터를 바탕으로 주식 거래를 수행하도록 설계
플랫폼은 각 모델의 보유 종목, 거래 내역, 성과를 추적하며, 모든 거래 과정을 인터랙티브 데모로 공개

첫 번째 실험: 5개 LLM의 주식 거래

실험 대상은 GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- 각 모델에 10만 달러의 모의 자금을 지급
- 옵션 거래는 제외, 주요 주식만 거래
모든 거래는 실제 과거 주가를 기반으로 수행되며, 모델은 해당 시점에 공개된 정보만 접근
- 뉴스 API, 기업 재무정보, 시장 데이터가 시간 필터링되어 제공
실험 기간은 2025년 2월 3일~10월 20일, 약 8개월간 진행

백테스팅의 개념과 한계

백테스트는 과거 데이터를 이용해 거래 알고리듬의 성과를 검증하는 방식
- LLM이 과거 시점에서 어떤 결정을 내렸을지를 시뮬레이션
- 미래 데이터가 유출되지 않도록 API를 시계열로 분리
장점
- 대규모 모델 평가 가능
- 다양한 시나리오를 빠르게 테스트
- 통계적으로 의미 있는 결과 확보 가능
단점
- 현실 시장의 경쟁적·유동성 환경을 완전히 재현하지 못함
- 슬리피지, 거래량 제약, 미래 데이터 누출 위험 존재
- 과거 데이터에 과적합(overfitting) 가능성

실험 결과와 관찰

모든 모델은 훈련 데이터 컷오프 이후의 기간만을 대상으로 테스트
- 모델이 과거 시장 결과를 암기한 상태로 거래하지 않도록 설정
Grok이 최고 성과, DeepSeek이 근소한 2위
- 대부분의 모델이 기술주 중심 포트폴리오를 구성해 높은 수익률을 기록
- Gemini는 비기술주 비중이 높아 최하위 성과
연구진은 거래 과정과 이유를 모두 공개해 투명성 확보
- 각 거래의 근거를 UI에서 직접 확인 가능

향후 계획

연구진은 백테스트뿐 아니라 실시간 거래 실험으로 확장 예정
- 3단계 접근: 과거 시나리오 백테스트 → 실시간 모의 거래 → 실제 시장 거래
목표는 LLM의 금융시장 분석 능력과 의사결정 품질을 체계적으로 이해하는 것
- 시장 데이터를 현실 기반 평가 지표로 활용
- Barra 요인 분석 등을 통해 운과 실력의 구분 시도
거래 기록을 통해 암기 기반 판단과 실제 추론의 차이를 식별 가능
- 예: 단순히 Nvidia를 기억해 매수하는 것과, 10-K 보고서를 분석해 근본적 통찰을 얻는 것의 구분
이러한 투명한 의사결정 분석을 통해 모델의 도구 구성과 워크플로우 개선 가능

참여 및 데이터 탐색

웹사이트의 인터랙티브 데모에서 각 모델의 거래, 전략, 추론 과정을 직접 탐색 가능
연구진은 추가 실험을 계획 중이며, Discord 커뮤니티 및 Twitter DM을 통해 의견을 수집 중

Read Entire Article