qwen-3.6-27b 모델을 Unsloth 에서 파인튜닝한 모델을 받아서 돌려 봤습니다. 양자화는 Q8_K_XL 입니다.
앞서 글 올린 Qwen-3.6-36b-a3b 는 MoE 모델이라 대충 70~80Tps 정도의 속도가 나왔는데, 역시나 Dense모델인 27b는 속도가 생각보다 많이 느리네요.
물론 Metal 가속을 사용하는 맥의 특성일수도 있고 Nividia랑 친한 Unsloth 에서 파인튜닝한 UD모델을 사용해서 더 그럴순 있겠습니다만.
앞서 글 올린 Qwen-3.6-35b-a3b 의 경우도 동일하게 Unsloth 에서 파인튜닝한 Q8_K_XL UD 모델이었습니다.
Prediction Stats:
Stop Reason: eosFound
Tokens/Second: 17.11
Time to First Token: 0.742s
Prompt Tokens: 36
Predicted Tokens: 3907
Total Tokens: 3943늘 기본적으로 TPS 확인하는데 제가 사용하는 커멘드는 “python snake game” 인데요. Qwen-3.6-35b 모델에서 75tps 정도 나오는 커멘드인데 27b dense 모델이 17.11 이면 ;;
아무리 Dense모델이 MoE 대비 상대적으로 결과가 더 좋을 수 있다해도…
용납 할 수 없는 … 속도차이네요 ㅋㅋ
현재로썬 비전이나 다른 기능은 확인해보진 못했지만 코딩에 쓰는 목적으론 35b 모델을 놔두고 이 27b dense 모델을 쓸 이유는 없을 것 같습니다.
You have 13 models, taking up 615.06 GB of disk space.
LLM PARAMS ARCH SIZE DEVICE
gemma-4-26b-a4b-it 26B-A4B gemma4 27.87 GB Local
gemma-4-31b-it 31B gemma4 35.02 GB Local
glm-4.7-flash 64x2.6B DeepSeek 2 17.52 GB Local
minimax-m2.7 256x4.9B minimax-m2 140.62 GB Local
qwen2.5-coder-3b-instruct 3B Qwen2 1.93 GB Local
qwen3-coder-next 512x2.5B qwen3next 49.61 GB Local
qwen3-vl-8b-instruct 8B qwen3vl 7.45 GB Local
qwen3.5-2b 2B qwen35 2.67 GB Local
qwen3.5-397b-a17b 397B-A17B qwen35moe 247.10 GB Local
qwen3.5-9b 9B qwen35 7.79 GB Local
qwen3.6-27b 27B qwen35 37.17 GB Local ✓ LOADED
qwen3.6-35b-a3b 35B-A3B qwen35moe 40.24 GB Local35b-a3b 가 40.24GB, 27b가 37.17GB 인데요 다른 양자화 모델파일을 봐도 .. 제 기준에선 굳이? 싶습니다.
물론 32gb 나 24gb VRAM 의 Nvidia GPU 를 가지고 사용하시려는 경우에는 Dense 모델이 훨씬 좋은 결과를 얻을 수 있고 VRAM에 몽땅 올린다 치면 보통 맥 대비 nvidia gpu 가 5~6배 빠르니까 .. 대충 50tps 이상은 나와주지 않을까요?

대충 크기를 보니.. Q4 계열중에 선택한다 치면 17기가 언저리 나오는 것 같습니다. IQ4_XS가 17.28GB 니까 32GB VRAM 이면 컨텍스트 조금 타협하면 4bit 양자화 계열로는 선택지가 없진 않네요.
결과 자체는 27b 가 dense 모델 답게 조금더 섬세한 느낌이긴 하지만.. 저같이 코딩에 주로 쓰는 입장으론 설명의 섬세함 따위 뭣이 중헌가요. 코드가 비슷하면 .. 결론은 굳이??? 로 끝나는것을 ..
맥북이나 맥스튜디오 같은 메탈기반 장치를 사용하신다면 메모리 쫄리는거 아니면 그냥 35b 쓰셔도 될 것 같습니다.
이상입니다.
댓글을 달려면 로그인해야 합니다.