라즈베리 파이에서 실시간으로 구동되는 300억 파라미터 Qwen 모델

1 month ago 8

  • Qwen3-30B-A3B-Instruct-2507 모델이 라즈베리 파이 5(16GB) 에서 실시간으로 동작하며, 8.03 TPS와 94.18%의 BF16 품질을 유지
  • ByteShape의 ShapeLearn 비트길이 학습법을 통해 각 장치의 메모리 한도 내에서 속도와 품질의 균형을 최적화
  • UnslothMagicQuant 대비 동일 품질에서 더 높은 TPS 또는 동일 TPS에서 더 높은 품질을 달성
  • CPU, GPU(특히 RTX 5090·4080) 모두에서 4비트 근처가 최적 성능 구간으로 나타나며, 비트 수를 줄인다고 항상 속도가 빨라지지 않음
  • 전반적으로 ByteShape 모델은 “메모리를 예산으로 보고 TPS/품질을 최적화” 하는 접근으로 엣지부터 데이터센터까지 효율적 성능을 제공

ShapeLearn 기반 최적화 개요

  • ByteShape는 모델 실행 시 사용자가 체감하는 속도와 응답 품질을 중심으로 최적화 수행
    • ShapeLearn은 각 텐서의 가중치 데이터타입(bitlength)을 학습해 TPS(초당 토큰 수)출력 품질을 동시에 극대화
    • 목표는 단순한 파일 크기 축소가 아니라, 속도와 품질의 실제 균형 개선
  • llama.cpp 환경에서는 비트 수를 줄여도 항상 속도가 향상되지 않으며, 커널 선택과 오버헤드가 성능에 큰 영향을 미침
  • ByteShape는 메모리를 “충분히 맞추는 예산” 으로 보고, 그 이후에는 TPS와 품질을 중심으로 조정

Raspberry Pi 5 성능

  • 라즈베리 파이 5(16GB) 에서 30B 모델이 8.5 TPS, 92% 이상 정확도 유지
    • Q3_K_S-2.70bpw [KQ-2] 모델은 실시간 대화 수준의 반응 속도 제공
  • 정확도 우선 모델에서는 ByteShape가 1.1~1.3% 상대 오차(약 98.8% 정확도) 로 Unsloth보다 최대 1.87배 낮은 오류율 달성
    • 동일 환경에서 5~6 TPS 유지, 정확도 중심 작업에 적합
  • 속도 우선 모델(Q3_K_S-3.25bpw [KQ-5]) 도 Unsloth 대비 더 작고 빠르며 정확도 우위 유지
  • Unsloth 및 MagicQuant의 다수 모델은 메모리 제약으로 Pi 환경에서 실행 불가

Intel i7 (64GB) 성능

  • 모든 모델이 메모리에 적합한 환경에서 ByteShape가 Unsloth·MagicQuant 대비 높은 품질과 TPS 달성
  • 품질 중심 구간: ByteShape의 IQ4_XS-4.67bpw [KQ-9] 모델이 Unsloth의 Q6_K 대비 1.44배 낮은 오류율과 더 높은 TPS 확보
  • 균형 구간: ByteShape의 Q3_K_S-3.25bpw 모델이 Unsloth보다 1.73배 낮은 오류율, MagicQuant보다 정확도·속도 모두 우위
  • ByteShape만이 26+ TPS 영역과 고품질 영역을 동시에 커버

GPU 성능 비교 (RTX 5090 / RTX 4080)

  • GPU에서는 커널 선택과 VRAM 접근 효율이 성능을 좌우
    • 4비트 근처(~4bpw) 가 TPS와 품질의 스위트 스팟으로 확인
  • RTX 5090 (32GB)
    • Unsloth, MagicQuant, ByteShape 모두 4b 구간에서 302~303 TPS, 98.4~98.9% 정확도
    • ByteShape의 IQ4_XS-4.67bpw 모델은 272.98 TPS, 99.75% 정확도로 최고 정확도 달성
    • Unsloth Q6_K(6.57bpw, 264.88 TPS, 99.64%) 및 MagicQuant mxfp4(5.46bpw, 240.42 TPS, 99.32%)보다 우위
  • RTX 4080 (16GB)
    • VRAM 제약으로 4b 모델 불가, ByteShape가 동일 16GB 조건에서 Unsloth보다 TPS·정확도 모두 우수
    • ByteShape IQ4_XS-3.87bpw: 214.81 TPS, 98.66% 정확도
      • Unsloth Q3_K_XL 대비 1.59배 낮은 오류율, 9.4% 높은 TPS
      • Unsloth IQ2_M 대비 2.54배 낮은 오류율

비트 수와 속도의 역설

  • 3비트 이하로 줄여도 속도 향상은 보장되지 않음
    • GPU는 32스레드 워프 단위로 동작하며, 특정 데이터 형식과 접근 패턴에 최적화되어 있음
    • VRAM은 32바이트 정렬 블록 단위로 읽기 때문에, 더 작은 데이터도 동일 대역폭 사용
    • 낮은 비트폭은 디코딩 오버헤드 증가로 오히려 느려질 수 있음
  • 예시: RTX 5090에서 iq4_xs는 54µs, iq3_xxs는 62µs 소요 → 25% 용량 감소가 13% 속도 저하로 이어짐
  • ShapeLearn은 이러한 하드웨어 특성을 고려해 텐서별 데이터타입을 선택, 속도와 정확도를 동시에 확보

평가 방법 및 결론

  • 모든 모델은 동일한 평가 하니스로 TPS정규화된 품질 점수(BF16 대비) 측정
    • 품질 평가는 MMLU, GSM8K, IFEval, LiveCodeBench V4 결과를 통합
  • 핵심 결론:
    • “메모리를 목표가 아닌 제약으로 다루라.”
    • 모델이 장치에 맞게 적재되면, 이후에는 TPS와 품질의 균형 곡선이 중요
    • ByteShape는 모든 장치에서 동일 품질 대비 더 빠르거나, 동일 속도 대비 더 높은 품질을 달성
  • 라즈베리 파이 5에서는 Q3_K_S-2.70bpw [KQ-2] 모델이 실시간 대화에 적합
  • 대형 CPU·GPU 환경에서도 동일 원칙 적용: “먼저 맞추고, 그다음 최적화하라.”
  • ByteShape는 향후 더 많은 장치별 최적화 모델을 지속 공개 예정

Read Entire Article