-
16개의 Claude 에이전트가 병렬로 협력해 Rust 기반 C 컴파일러를 완성, Linux 6.9 커널을 빌드할 수 있는 수준에 도달
- 약 2,000회 세션과 2만 달러 비용으로 10만 줄 규모의 코드를 생성, x86·ARM·RISC-V 아키텍처를 지원
- 에이전트들은 자동 루프 하네스를 통해 인간 개입 없이 지속적으로 작업하며, 테스트·병렬화·역할 분담 구조로 효율을 높임
- 결과물은 GCC 호환성과 높은 테스트 통과율을 보였으나, 16비트 x86 코드 생성·링커·최적화 품질 등은 미완성 상태
- 이 실험은 자율형 LLM 팀의 한계와 가능성을 검증한 사례로, 향후 완전 자율 개발 환경의 안전성과 품질 관리가 핵심 과제로 부상
에이전트 팀 기반 C 컴파일러 프로젝트 개요
- 여러 Claude 인스턴스가 병렬로 협력해 하나의 코드베이스를 개발하는 실험
- 인간의 실시간 개입 없이 자율적으로 코드 작성·테스트·수정을 반복
- 목표는 Rust로 작성된 C 컴파일러를 완성해 Linux 커널을 직접 빌드하는 것
- 총 16개의 에이전트, 약 2,000회 세션, 2억 입력 토큰·1.4억 출력 토큰을 사용
- 결과물은 100,000줄 규모의 컴파일러, Linux 6.9 커널 및 주요 오픈소스 프로젝트(QEMU, FFmpeg, SQLite, Redis 등) 빌드 가능
장기 실행을 위한 Claude 하네스 설계
- 기존 Claude Code는 인간의 입력이 필요했으나, 무한 루프 구조의 자동 실행 하네스로 자율 진행 가능
- 각 작업 완료 후 즉시 다음 작업을 수행하는 자동 반복 구조
- 작업 중 Claude가 실수로 pkill -9 bash를 실행해 자신을 종료한 사례도 있음
-
병렬 실행 구조는 Docker 컨테이너와 Git 동기화를 활용
- 각 에이전트는 /workspace에서 작업 후 /upstream으로 푸시
-
텍스트 파일 기반 락(lock) 으로 작업 충돌 방지
- 병합 충돌은 Claude가 직접 해결
병렬 Claude 운영 방식
- 병렬 실행의 장점은 동시 디버깅과 역할 분화
- 일부 에이전트는 코드 작성, 일부는 문서화·품질 관리·성능 최적화 담당
- 통신이나 중앙 조정자는 존재하지 않으며, 각 에이전트가 자율적으로 다음 과제 선택
- Git 히스토리에는 각 에이전트의 작업 잠금 기록과 진행 문서가 남음
Claude 팀 프로그래밍에서 얻은 교훈
고품질 테스트의 중요성
- Claude는 주어진 테스트를 기준으로 자율 작업하므로, 검증기의 정확도가 핵심
-
지속적 통합(CI) 파이프라인을 구축해 기존 기능이 깨지지 않도록 강제 검증
- 오픈소스 빌드 스크립트와 컴파일러 테스트 스위트를 활용해 품질 확보
Claude의 관점에서 환경 설계
- 각 에이전트는 컨텍스트 없는 새 컨테이너에서 시작하므로, 진행상황 문서화 필수
- README와 진행 파일을 지속적으로 갱신하도록 지시
-
맥락 오염 방지: 로그는 최소화하고, 오류는 ERROR 키워드로 식별 가능하게 기록
-
시간 인식 부재를 보완하기 위해 --fast 옵션으로 1~10% 샘플 테스트 수행
병렬화의 한계와 해결
- 독립 테스트가 많을 때는 병렬화가 쉬우나, Linux 커널 빌드는 단일 거대 작업으로 충돌 발생
- 해결책으로 GCC를 기준 컴파일러 오라클로 사용
- 일부 파일은 GCC로, 나머지는 Claude 컴파일러로 빌드
- 실패 시 문제 파일을 좁혀가며 병렬 디버깅 가능
- 이후 델타 디버깅으로 상호 의존 오류 탐지
에이전트 역할 분화
- 중복 코드 제거, 성능 개선, 효율적 코드 생성, Rust 구조 개선, 문서화 등 전문화된 역할 분담
- 병렬성과 전문화를 결합해 대규모 코드베이스 관리 효율 향상
Opus 4.6 모델의 성능 평가
-
Opus 4.5까지는 대형 프로젝트 빌드 불가, Opus 4.6에서 처음으로 실용 수준 도달
-
클린룸 구현으로 인터넷 접근 없이 Rust 표준 라이브러리만 사용
-
GCC torture test suite 99% 통과, Doom 실행 가능
- 한계점:
-
16비트 x86 코드 생성 불가, 부트 단계에서 GCC 호출 필요
-
어셈블러·링커 미완성, 일부 버그 존재
-
생성 코드 효율 낮음, GCC 최적화 해제 수준보다 비효율적
-
Rust 코드 품질은 준수하나 전문가 수준 미달
자율 에이전트 팀의 한계와 가능성
- 프로젝트는 LLM 자율 협업의 한계 측정을 위한 벤치마크
- 완전 자율 개발은 품질 보증·보안 위험을 동반
-
인간 검증 없는 코드 배포에 대한 우려 표명
- 그러나, 자율형 에이전트 팀이 복잡한 프로젝트를 완성할 수 있음을 입증
- 향후 모델 발전과 함께 안전한 자율 개발 전략이 필수 과제로 제시됨
향후 전망
- 언어 모델의 발전은 IDE 자동완성 → 함수 완성 → 페어 프로그래밍 → 자율 프로젝트 수행으로 진화
-
Agent teams는 완전 자율 개발의 가능성을 보여줌
- 빠른 기술 발전 속도에 놀라움과 동시에 새로운 윤리·안전 프레임워크 필요성 강조
- 긍정적 활용이 부정적 위험을 상쇄할 것으로 기대되나, 새로운 개발 패러다임에 대한 대비 필요