- Cursor는 ‘자율 코딩 에이전트’가 수주간 작동하는 실험을 진행하며, 인간 팀이 수개월 걸리는 프로젝트를 자동화할 수 있는지를 탐구했다고 설명
- 이 시스템을 검증하기 위해 ‘웹 브라우저를 처음부터 만드는’ 목표를 설정하고, 에이전트들이 약 일주일간 100만 줄 이상의 코드를 작성했다고 주장
- 그러나 공개된 GitHub 저장소(fastrender) 는 다수의 컴파일 오류와 CI 실패를 보이며, 실행 가능한 브라우저가 아님이 확인됨
- Cursor는 작동 여부나 재현 가능한 데모, 빌드 가능한 커밋을 제시하지 않았으며, 실험 결과의 구체적 성공 근거도 없음
- 그럼에도 불구하고 Cursor는 “에이전트가 대형 프로젝트에서 의미 있는 진전을 이뤘다” 고 표현해, 실제 성능 검증 없이 성공적 인상을 남김
Cursor의 블로그 실험 개요
- 2026년 1월 14일 Cursor는 “Scaling long-running autonomous coding” 이라는 블로그 글을 게시
- 목표는 “인간 팀이 수개월 걸리는 프로젝트를 자율 코딩 에이전트로 얼마나 멀리 확장할 수 있는가”를 탐구하는 것
- 여러 접근법을 시도한 뒤, “조정 문제를 해결하고 단일 에이전트 없이 대규모 프로젝트로 확장할 수 있는” 시스템에 도달했다고 설명
- 검증을 위해 ‘웹 브라우저를 처음부터 만드는’ 실험을 수행, 에이전트들이 약 일주일간 1,000개 파일에 걸쳐 100만 줄 이상의 코드를 작성했다고 밝힘
실험 결과의 불명확성
- Cursor는 “새로운 에이전트가 코드베이스를 이해하고 의미 있는 진전을 이룬다”, “수백 명의 워커가 동시에 같은 브랜치에 푸시한다”고 주장
- 그러나 브라우저가 실제로 작동하는지 여부는 명시하지 않음
- 게시글에는 스크린샷 영상이 포함되어 있으나, 실행 가능한 데모나 구체적 결과 설명은 없음
- “브라우저를 처음부터 만드는 것은 매우 어렵다”는 문구 외에 작동 증거는 제시되지 않음
코드베이스 검증 결과
- 저장소를 직접 빌드하면 ‘fastrender’ 라이브러리 컴파일 실패(34개 오류, 94개 경고) 가 발생
- 최근 GitHub Actions 실행 결과에서도 워크플로 오류와 다수의 컴파일 실패가 확인됨
- 최근 100개의 커밋 중 정상적으로 빌드된 커밋은 하나도 없음
- 코드 내부는 의도나 구조가 없는 ‘AI slop’ 수준의 산출물로 평가됨
-
cargo build나 cargo check 명령조차 실행되지 않은 것으로 보임
- 관련 이슈 #98이 현재 열려 있음
재현성과 신뢰성 문제
- Cursor의 블로그는 실행 방법, 기대 결과, 작동 방식에 대한 설명이 전혀 없음
-
재현 가능한 데모, 빌드 지침, 검증된 커밋(tag/release/commit) 이 제공되지 않음
- 그럼에도 불구하고 글의 구성과 표현은 “작동하는 프로토타입” 처럼 보이게 함
- Cursor는 “작동한다”고 명시하지 않았으므로 허위 진술은 아니지만, 성공을 암시하는 인상을 남김
결론 및 평가
- Cursor는 “프로덕션 수준 브라우저”라고 주장하지 않았으나, ‘의미 있는 진전’과 ‘브라우저 구축’ 이라는 표현으로 성공적 실험처럼 보이게 함
- 그러나 작동 증거, 빌드 가능한 코드, 재현 가능한 결과가 전혀 없음
- “수백 명의 에이전트가 협업해 대형 프로젝트에서 진전을 이뤘다”는 주장은 근거 없는 비범한 주장으로 평가됨
- 최소한의 기준인 “컴파일 가능하고 단순 HTML 파일을 렌더링할 수 있는 수준” 조차 충족하지 못함
- 결과적으로 Cursor의 실험은 자율 코딩 확장의 가능성보다는, 대규모 코드 생성의 한계를 드러낸 사례로 남음