LLM의 지난 6개월을 5분 만에 보기
3 weeks ago
14
- 2025년 11월은 최근 LLM 변화의 기준점이 됐고, 코딩 에이전트의 실용화와 노트북 실행 모델의 약진이 핵심이었음
- Claude Sonnet 4.5 이후 GPT-5.1, Gemini 3, Claude Opus 4.5가 빠르게 경쟁했고, Opus 4.5가 몇 달간 선두로 보였음
- OpenAI와 Anthropic의 검증 가능한 보상 기반 강화학습은 Codex와 Claude Code 같은 하네스에서 코드 품질 향상으로 드러남
- 휴가철 실험은 micro-javascript 같은 흥미로운 결과를 낳았지만, 버그·속도·안전성 때문에 실제 필요성은 제한적이었음
- Gemma 4, GLM-5.1, Qwen3.6-35B-A3B 같은 오픈 가중치 모델은 프런티어보다 약해도 기대를 크게 넘기 시작함
6개월을 가른 두 흐름
- 2025년 11월 변곡점은 최근 6개월 LLM 변화를 보기 좋은 기준점이며, 특히 코딩 영역에서 중요한 달이었음
- 지난 6개월의 핵심 변화는 두 가지로 압축됨
- 코딩 에이전트가 실제 일상 작업에 쓸 수 있을 만큼 좋아짐
- 노트북에서 실행 가능한 모델들이 프런티어 모델보다 약하지만 기대를 크게 뛰어넘기 시작함
- 모델 비교에는 자전거를 타는 펠리컨 SVG 생성 테스트가 쓰임
- 펠리컨은 그리기 어렵고, 자전거도 그리기 어렵고, 펠리컨은 자전거를 탈 수 없으며, 어떤 AI 연구소도 이런 과제를 위해 모델을 학습시켰을 가능성이 낮다는 점이 테스트의 배경임
11월의 프런티어 모델 경쟁
- 11월 초 널리 “최고”로 인정받던 모델은 9월 29일 공개된 Claude Sonnet 4.5였음
- 이후 “최고” 모델 자리는 세 대형 제공자 사이에서 빠르게 바뀜
- Gemini 3가 이 비교군 중 가장 좋은 펠리컨 그림을 그렸지만, 펠리컨 테스트만으로 모델 전체를 평가할 수는 없음
- Claude Opus 4.5는 그 뒤 몇 달 동안 선두를 유지한 모델로 보였음
코딩 에이전트의 품질 장벽 돌파
- 11월의 진짜 변화는 코딩 에이전트의 품질 향상이었음
- OpenAI와 Anthropic은 2025년 대부분을 모델이 작성하는 코드 품질을 높이기 위한 검증 가능한 보상 기반 강화학습(Reinforcement Learning from Verifiable Rewards)에 투입함
- 이 개선은 Codex와 Claude Code 같은 에이전트 하네스(harness)와 결합될 때 특히 두드러짐
- 11월에는 코딩 에이전트가 “종종 작동”하는 수준에서 “대체로 작동”하는 수준으로 넘어감
- 사용자가 대부분의 시간을 어리석은 실수 수정에 쓰지 않아도 실제 작업을 맡길 수 있는 일상 도구 수준에 도달함
휴가철 실험과 과열
- 12월부터 1월까지 많은 사용자가 휴가 기간을 활용해 새 모델과 코딩 에이전트가 무엇을 할 수 있는지 실험함
- 모델과 에이전트는 많은 일을 해냈고, 일부 사용자는 야심 찬 프로젝트를 빠르게 만들기 시작함
- micro-javascript는 MicroQuickJS를 느슨하게 Python으로 포팅한 JavaScript 구현체였음
- 브라우저 플레이그라운드는 JavaScript 코드가 micro-javascript 라이브러리로 실행되고, 그 Python 코드가 Pyodide 안에서, WebAssembly 안에서, JavaScript 안에서, 브라우저 안에서 실행되는 구조였음
- 결과물은 흥미롭지만 버그가 있고 느리고 안전하지 않은 반쯤 완성된 JavaScript의 Python 구현체를 실제로 필요로 하는 사람은 없었고, 같은 기간 만든 다른 프로젝트들도 조용히 은퇴함
OpenClaw와 개인 AI 비서 열풍
- 11월 말 첫 커밋이 올라온 당시 잘 알려지지 않았던 저장소 “Warelay”가 이후 빠르게 주목받음
- 12월과 1월 사이 여러 차례 이름이 바뀐 뒤, 2월에는 최종 이름 OpenClaw로 큰 관심을 받음
- OpenClaw는 “개인 AI 비서”이며, NanoClaw와 ZeroClaw 같은 프로젝트를 포함하는 일반명으로 Claws라는 표현이 생김
- Silicon Valley 주변에서 사람들이 Claw를 실행하기 위해 Mac Mini를 구매하면서 Mac Mini가 품절되기 시작함
- Drew Breunig는 Claw를 새로운 디지털 반려동물에 비유하며, Mac Mini가 Claw를 위한 완벽한 수조라고 농담함
- Claws의 비유로는 2004년 영화 Spider-Man 2에서 Alfred Molina가 연기한 Doc Ock가 제시됨
- 그의 클로는 AI로 구동되며 억제 칩이 손상되지 않는 한 안전했지만, 칩이 손상된 뒤 악해져 그를 장악함
Gemini 3.1 Pro와 펠리컨 테스트의 확장
- 2월에는 Gemini 3.1 Pro가 공개됐고, 자전거를 탄 펠리컨을 매우 잘 그렸음
- 결과물에는 바구니 속 물고기까지 포함돼 있었음
- Google의 Jeff Dean은 자전거를 탄 애니메이션 펠리컨 영상을 올림
- 같은 영상에는 penny-farthing을 탄 개구리, 작은 차를 운전하는 기린, 롤러스케이트를 탄 타조, 스케이트보드를 킥플립하는 거북이, 스트레치 리무진을 운전하는 닥스훈트도 포함됨
- 이 결과는 AI 연구소들이 펠리컨 테스트 같은 이상한 과제에도 관심을 기울였을 가능성을 농담처럼 떠올리게 만듦
4월의 오픈 가중치 모델
- Google은 Gemma 4 모델 시리즈를 공개함
- Gemma 4는 미국 회사에서 본 오픈 가중치 모델 중 가장 능력 있는 모델로 평가됨
- 중국 AI 연구소 GLM은 GLM-5.1을 공개함
- GLM-5.1은 1.5TB 규모의 오픈 가중치 모델임
- 실행할 하드웨어를 감당할 수 있다면 매우 효과적인 모델임
- GLM-5.1은 자전거를 탄 펠리컨을 꽤 능숙하게 그렸지만, 애니메이션 시도에서는 자전거가 위쪽으로 튀고 왜곡됨
- Charles가 Bluesky에서 제안한 “전동 킥보드를 탄 North Virginia Opossum” 과제에서는 다른 모델들이 근접하지 못한 결과를 냄
- “Cruising the commonwealth since dusk”라는 문구가 결과에 포함됨
- 결과물은 애니메이션으로도 제공됨
노트북에서 실행되는 모델의 기대 초과
-
Homepage
-
개발자
- LLM의 지난 6개월을 5분 만에 보기