라즈베리 파이에서 실시간으로 구동되는 300억 파라미터 Qwen 모델

1 month ago 8

Qwen3-30B-A3B-Instruct-2507 모델이 라즈베리 파이 5(16GB) 에서 실시간으로 동작하며, 8.03 TPS와 94.18%의 BF16 품질을 유지
ByteShape의 ShapeLearn 비트길이 학습법을 통해 각 장치의 메모리 한도 내에서 속도와 품질의 균형을 최적화
Unsloth와 MagicQuant 대비 동일 품질에서 더 높은 TPS 또는 동일 TPS에서 더 높은 품질을 달성
CPU, GPU(특히 RTX 5090·4080) 모두에서 4비트 근처가 최적 성능 구간으로 나타나며, 비트 수를 줄인다고 항상 속도가 빨라지지 않음
전반적으로 ByteShape 모델은 “메모리를 예산으로 보고 TPS/품질을 최적화” 하는 접근으로 엣지부터 데이터센터까지 효율적 성능을 제공

ShapeLearn 기반 최적화 개요

ByteShape는 모델 실행 시 사용자가 체감하는 속도와 응답 품질을 중심으로 최적화 수행
- ShapeLearn은 각 텐서의 가중치 데이터타입(bitlength)을 학습해 TPS(초당 토큰 수) 와 출력 품질을 동시에 극대화
- 목표는 단순한 파일 크기 축소가 아니라, 속도와 품질의 실제 균형 개선
llama.cpp 환경에서는 비트 수를 줄여도 항상 속도가 향상되지 않으며, 커널 선택과 오버헤드가 성능에 큰 영향을 미침
ByteShape는 메모리를 “충분히 맞추는 예산” 으로 보고, 그 이후에는 TPS와 품질을 중심으로 조정

라즈베리 파이 5(16GB) 에서 30B 모델이 8.5 TPS, 92% 이상 정확도 유지
- Q3_K_S-2.70bpw [KQ-2] 모델은 실시간 대화 수준의 반응 속도 제공
정확도 우선 모델에서는 ByteShape가 1.1~1.3% 상대 오차(약 98.8% 정확도) 로 Unsloth보다 최대 1.87배 낮은 오류율 달성
- 동일 환경에서 5~6 TPS 유지, 정확도 중심 작업에 적합
속도 우선 모델(Q3_K_S-3.25bpw [KQ-5]) 도 Unsloth 대비 더 작고 빠르며 정확도 우위 유지
Unsloth 및 MagicQuant의 다수 모델은 메모리 제약으로 Pi 환경에서 실행 불가

모든 모델이 메모리에 적합한 환경에서 ByteShape가 Unsloth·MagicQuant 대비 높은 품질과 TPS 달성
품질 중심 구간: ByteShape의 IQ4_XS-4.67bpw [KQ-9] 모델이 Unsloth의 Q6_K 대비 1.44배 낮은 오류율과 더 높은 TPS 확보
균형 구간: ByteShape의 Q3_K_S-3.25bpw 모델이 Unsloth보다 1.73배 낮은 오류율, MagicQuant보다 정확도·속도 모두 우위
ByteShape만이 26+ TPS 영역과 고품질 영역을 동시에 커버

GPU에서는 커널 선택과 VRAM 접근 효율이 성능을 좌우
- 4비트 근처(~4bpw) 가 TPS와 품질의 스위트 스팟으로 확인
RTX 5090 (32GB)
- Unsloth, MagicQuant, ByteShape 모두 4b 구간에서 302~303 TPS, 98.4~98.9% 정확도
- ByteShape의 IQ4_XS-4.67bpw 모델은 272.98 TPS, 99.75% 정확도로 최고 정확도 달성
- Unsloth Q6_K(6.57bpw, 264.88 TPS, 99.64%) 및 MagicQuant mxfp4(5.46bpw, 240.42 TPS, 99.32%)보다 우위
RTX 4080 (16GB)
- VRAM 제약으로 4b 모델 불가, ByteShape가 동일 16GB 조건에서 Unsloth보다 TPS·정확도 모두 우수
- ByteShape IQ4_XS-3.87bpw: 214.81 TPS, 98.66% 정확도
  - Unsloth Q3_K_XL 대비 1.59배 낮은 오류율, 9.4% 높은 TPS
  - Unsloth IQ2_M 대비 2.54배 낮은 오류율

3비트 이하로 줄여도 속도 향상은 보장되지 않음
- GPU는 32스레드 워프 단위로 동작하며, 특정 데이터 형식과 접근 패턴에 최적화되어 있음
- VRAM은 32바이트 정렬 블록 단위로 읽기 때문에, 더 작은 데이터도 동일 대역폭 사용
- 낮은 비트폭은 디코딩 오버헤드 증가로 오히려 느려질 수 있음
예시: RTX 5090에서 iq4_xs는 54µs, iq3_xxs는 62µs 소요 → 25% 용량 감소가 13% 속도 저하로 이어짐
ShapeLearn은 이러한 하드웨어 특성을 고려해 텐서별 데이터타입을 선택, 속도와 정확도를 동시에 확보

모든 모델은 동일한 평가 하니스로 TPS와 정규화된 품질 점수(BF16 대비) 측정
- 품질 평가는 MMLU, GSM8K, IFEval, LiveCodeBench V4 결과를 통합
핵심 결론:
- “메모리를 목표가 아닌 제약으로 다루라.”
- 모델이 장치에 맞게 적재되면, 이후에는 TPS와 품질의 균형 곡선이 중요
- ByteShape는 모든 장치에서 동일 품질 대비 더 빠르거나, 동일 속도 대비 더 높은 품질을 달성
라즈베리 파이 5에서는 Q3_K_S-2.70bpw [KQ-2] 모델이 실시간 대화에 적합
대형 CPU·GPU 환경에서도 동일 원칙 적용: “먼저 맞추고, 그다음 최적화하라.”
ByteShape는 향후 더 많은 장치별 최적화 모델을 지속 공개 예정