LLM의 지난 6개월을 5분 만에 보기

3 weeks ago 14

2025년 11월은 최근 LLM 변화의 기준점이 됐고, 코딩 에이전트의 실용화와 노트북 실행 모델의 약진이 핵심이었음
Claude Sonnet 4.5 이후 GPT-5.1, Gemini 3, Claude Opus 4.5가 빠르게 경쟁했고, Opus 4.5가 몇 달간 선두로 보였음
OpenAI와 Anthropic의 검증 가능한 보상 기반 강화학습은 Codex와 Claude Code 같은 하네스에서 코드 품질 향상으로 드러남
휴가철 실험은 micro-javascript 같은 흥미로운 결과를 낳았지만, 버그·속도·안전성 때문에 실제 필요성은 제한적이었음
Gemma 4, GLM-5.1, Qwen3.6-35B-A3B 같은 오픈 가중치 모델은 프런티어보다 약해도 기대를 크게 넘기 시작함

6개월을 가른 두 흐름

2025년 11월 변곡점은 최근 6개월 LLM 변화를 보기 좋은 기준점이며, 특히 코딩 영역에서 중요한 달이었음
지난 6개월의 핵심 변화는 두 가지로 압축됨
- 코딩 에이전트가 실제 일상 작업에 쓸 수 있을 만큼 좋아짐
- 노트북에서 실행 가능한 모델들이 프런티어 모델보다 약하지만 기대를 크게 뛰어넘기 시작함
모델 비교에는 자전거를 타는 펠리컨 SVG 생성 테스트가 쓰임
- 펠리컨은 그리기 어렵고, 자전거도 그리기 어렵고, 펠리컨은 자전거를 탈 수 없으며, 어떤 AI 연구소도 이런 과제를 위해 모델을 학습시켰을 가능성이 낮다는 점이 테스트의 배경임

11월의 진짜 변화는 코딩 에이전트의 품질 향상이었음
OpenAI와 Anthropic은 2025년 대부분을 모델이 작성하는 코드 품질을 높이기 위한 검증 가능한 보상 기반 강화학습(Reinforcement Learning from Verifiable Rewards)에 투입함
이 개선은 Codex와 Claude Code 같은 에이전트 하네스(harness)와 결합될 때 특히 두드러짐
11월에는 코딩 에이전트가 “종종 작동”하는 수준에서 “대체로 작동”하는 수준으로 넘어감
사용자가 대부분의 시간을 어리석은 실수 수정에 쓰지 않아도 실제 작업을 맡길 수 있는 일상 도구 수준에 도달함

12월부터 1월까지 많은 사용자가 휴가 기간을 활용해 새 모델과 코딩 에이전트가 무엇을 할 수 있는지 실험함
모델과 에이전트는 많은 일을 해냈고, 일부 사용자는 야심 찬 프로젝트를 빠르게 만들기 시작함
micro-javascript는 MicroQuickJS를 느슨하게 Python으로 포팅한 JavaScript 구현체였음
브라우저 플레이그라운드는 JavaScript 코드가 micro-javascript 라이브러리로 실행되고, 그 Python 코드가 Pyodide 안에서, WebAssembly 안에서, JavaScript 안에서, 브라우저 안에서 실행되는 구조였음
결과물은 흥미롭지만 버그가 있고 느리고 안전하지 않은 반쯤 완성된 JavaScript의 Python 구현체를 실제로 필요로 하는 사람은 없었고, 같은 기간 만든 다른 프로젝트들도 조용히 은퇴함

11월 말 첫 커밋이 올라온 당시 잘 알려지지 않았던 저장소 “Warelay”가 이후 빠르게 주목받음
12월과 1월 사이 여러 차례 이름이 바뀐 뒤, 2월에는 최종 이름 OpenClaw로 큰 관심을 받음
OpenClaw는 “개인 AI 비서”이며, NanoClaw와 ZeroClaw 같은 프로젝트를 포함하는 일반명으로 Claws라는 표현이 생김
Silicon Valley 주변에서 사람들이 Claw를 실행하기 위해 Mac Mini를 구매하면서 Mac Mini가 품절되기 시작함
Drew Breunig는 Claw를 새로운 디지털 반려동물에 비유하며, Mac Mini가 Claw를 위한 완벽한 수조라고 농담함
Claws의 비유로는 2004년 영화 Spider-Man 2에서 Alfred Molina가 연기한 Doc Ock가 제시됨
- 그의 클로는 AI로 구동되며 억제 칩이 손상되지 않는 한 안전했지만, 칩이 손상된 뒤 악해져 그를 장악함

2월에는 Gemini 3.1 Pro가 공개됐고, 자전거를 탄 펠리컨을 매우 잘 그렸음
결과물에는 바구니 속 물고기까지 포함돼 있었음
Google의 Jeff Dean은 자전거를 탄 애니메이션 펠리컨 영상을 올림
같은 영상에는 penny-farthing을 탄 개구리, 작은 차를 운전하는 기린, 롤러스케이트를 탄 타조, 스케이트보드를 킥플립하는 거북이, 스트레치 리무진을 운전하는 닥스훈트도 포함됨
이 결과는 AI 연구소들이 펠리컨 테스트 같은 이상한 과제에도 관심을 기울였을 가능성을 농담처럼 떠올리게 만듦

Google은 Gemma 4 모델 시리즈를 공개함
Gemma 4는 미국 회사에서 본 오픈 가중치 모델 중 가장 능력 있는 모델로 평가됨
중국 AI 연구소 GLM은 GLM-5.1을 공개함
- GLM-5.1은 1.5TB 규모의 오픈 가중치 모델임
- 실행할 하드웨어를 감당할 수 있다면 매우 효과적인 모델임
GLM-5.1은 자전거를 탄 펠리컨을 꽤 능숙하게 그렸지만, 애니메이션 시도에서는 자전거가 위쪽으로 튀고 왜곡됨
Charles가 Bluesky에서 제안한 “전동 킥보드를 탄 North Virginia Opossum” 과제에서는 다른 모델들이 근접하지 못한 결과를 냄
- “Cruising the commonwealth since dusk”라는 문구가 결과에 포함됨
- 결과물은 애니메이션으로도 제공됨