Qwen3.6-35B-A3B가 Claude Opus 4.7보다 더 나은 펠리컨 이미지를 생성

1 month ago 27

Qwen3.6-35B-A3B와 Claude Opus 4.7을 비교해 ‘자전거 타는 펠리컨’ 이미지를 생성한 결과, 전자가 더 완성도 높은 그림을 출력
Qwen 모델은 Alibaba의 최신 버전으로, Unsloth가 배포한 20.9GB 양자화 모델을 MacBook Pro M5에서 LM Studio로 로컬 실행
Claude Opus 4.7은 자전거 프레임 표현 오류가 있었고, thinking_level: max 옵션을 사용해도 품질 개선이 거의 없었음
‘펠리컨 벤치마크’는 원래 모델 비교의 풍자적 테스트였으나, 이번 결과는 로컬 LLM이 상용 모델을 능가할 수 있음을 보여줌
Qwen3.6-35B-A3B는 로컬 환경에서 실행 가능한 대형 모델의 경쟁력을 입증한 사례로 평가됨

Qwen3.6-35B-A3B와 Claude Opus 4.7 비교 실험

Qwen3.6-35B-A3B와 Claude Opus 4.7 두 모델을 대상으로 ‘자전거를 타는 펠리컨’ 이미지를 생성하는 비교 실험 진행
- Qwen 모델은 Alibaba가 공개한 최신 버전으로, Unsloth가 제공한 20.9GB 양자화(quantized) 모델 사용
- MacBook Pro M5에서 LM Studio와 llm-lmstudio 플러그인을 통해 로컬 실행
- Claude Opus 4.7은 Anthropic의 최신 클라우드 모델 사용
결과적으로 Qwen3.6-35B-A3B가 보다 완성도 높은 펠리컨 이미지를 생성
- Claude Opus 4.7은 자전거 프레임을 잘못 표현하는 오류 발생
- thinking_level: max 옵션을 추가해 재시도했으나 품질 향상은 거의 없음
일부에서는 모델들이 이 ‘펠리컨 벤치마크’에 맞춰 훈련되었다는 의혹을 제기
- 작성자는 이를 부정하면서도, 결과의 신뢰성을 검증하기 위해 ‘외발자전거를 타는 플라밍고’ 라는 새로운 테스트를 추가 수행
- Qwen3.6-35B-A3B가 다시 더 나은 결과를 냈으며, SVG 코드 내 “” 주석이 인상적이었다고 평가

‘펠리컨 자전거 벤치마크’는 본래 모델 비교의 부조리함을 풍자하기 위한 농담성 테스트로 시작
- 그러나 실제로는 펠리컨 그림의 품질과 모델의 전반적 성능 간 일정한 상관관계가 존재해 왔음
- 2024년 10월의 초기 결과물은 조악했으나, 이후 모델들은 점차 실제 활용 가능한 수준의 일러스트를 생성
이번 실험에서는 그 상관관계가 처음으로 무너짐
- Qwen 모델이 우수한 결과를 냈지만, 21GB 양자화 버전이 Anthropic의 최신 상용 모델보다 강력하다고 보긴 어렵다는 평가
- 다만 ‘자전거 타는 펠리컨의 SVG’를 생성해야 한다면, 현재 시점에서는 로컬에서 실행 가능한 Qwen3.6-35B-A3B가 더 나은 선택임
전체적으로 이번 비교는 로컬 LLM의 발전 수준과 대형 상용 모델과의 격차 축소를 보여주는 사례로 평가됨
- 특히 LM Studio 환경에서의 대형 모델 실행 가능성을 입증한 점이 주목됨