Unsloth/Qwen-3.6-27b

qwen-3.6-27b 모델을 Unsloth 에서 파인튜닝한 모델을 받아서 돌려 봤습니다. 양자화는 Q8_K_XL 입니다.

앞서 글 올린 Qwen-3.6-36b-a3b 는 MoE 모델이라 대충 70~80Tps 정도의 속도가 나왔는데, 역시나 Dense모델인 27b는 속도가 생각보다 많이 느리네요.

물론 Metal 가속을 사용하는 맥의 특성일수도 있고 Nividia랑 친한 Unsloth 에서 파인튜닝한 UD모델을 사용해서 더 그럴순 있겠습니다만.

앞서 글 올린 Qwen-3.6-35b-a3b 의 경우도 동일하게 Unsloth 에서 파인튜닝한 Q8_K_XL UD 모델이었습니다.

Bash

Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 17.11
  Time to First Token: 0.742s
  Prompt Tokens: 36
  Predicted Tokens: 3907
  Total Tokens: 3943

Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 17.11
  Time to First Token: 0.742s
  Prompt Tokens: 36
  Predicted Tokens: 3907
  Total Tokens: 3943

늘 기본적으로 TPS 확인하는데 제가 사용하는 커멘드는 “python snake game” 인데요. Qwen-3.6-35b 모델에서 75tps 정도 나오는 커멘드인데 27b dense 모델이 17.11 이면 ;;

아무리 Dense모델이 MoE 대비 상대적으로 결과가 더 좋을 수 있다해도…

용납 할 수 없는 … 속도차이네요 ㅋㅋ

현재로썬 비전이나 다른 기능은 확인해보진 못했지만 코딩에 쓰는 목적으론 35b 모델을 놔두고 이 27b dense 모델을 쓸 이유는 없을 것 같습니다.

Bash

You have 13 models, taking up 615.06 GB of disk space.

LLM                          PARAMS       ARCH          SIZE         DEVICE
gemma-4-26b-a4b-it           26B-A4B      gemma4        27.87 GB     Local
gemma-4-31b-it               31B          gemma4        35.02 GB     Local
glm-4.7-flash                64x2.6B      DeepSeek 2    17.52 GB     Local
minimax-m2.7                 256x4.9B     minimax-m2    140.62 GB    Local
qwen2.5-coder-3b-instruct    3B           Qwen2         1.93 GB      Local
qwen3-coder-next             512x2.5B     qwen3next     49.61 GB     Local
qwen3-vl-8b-instruct         8B           qwen3vl       7.45 GB      Local
qwen3.5-2b                   2B           qwen35        2.67 GB      Local
qwen3.5-397b-a17b            397B-A17B    qwen35moe     247.10 GB    Local
qwen3.5-9b                   9B           qwen35        7.79 GB      Local
qwen3.6-27b                  27B          qwen35        37.17 GB     Local     ✓ LOADED
qwen3.6-35b-a3b              35B-A3B      qwen35moe     40.24 GB     Local

You have 13 models, taking up 615.06 GB of disk space.

LLM                          PARAMS       ARCH          SIZE         DEVICE
gemma-4-26b-a4b-it           26B-A4B      gemma4        27.87 GB     Local
gemma-4-31b-it               31B          gemma4        35.02 GB     Local
glm-4.7-flash                64x2.6B      DeepSeek 2    17.52 GB     Local
minimax-m2.7                 256x4.9B     minimax-m2    140.62 GB    Local
qwen2.5-coder-3b-instruct    3B           Qwen2         1.93 GB      Local
qwen3-coder-next             512x2.5B     qwen3next     49.61 GB     Local
qwen3-vl-8b-instruct         8B           qwen3vl       7.45 GB      Local
qwen3.5-2b                   2B           qwen35        2.67 GB      Local
qwen3.5-397b-a17b            397B-A17B    qwen35moe     247.10 GB    Local
qwen3.5-9b                   9B           qwen35        7.79 GB      Local
qwen3.6-27b                  27B          qwen35        37.17 GB     Local     ✓ LOADED
qwen3.6-35b-a3b              35B-A3B      qwen35moe     40.24 GB     Local

35b-a3b 가 40.24GB, 27b가 37.17GB 인데요 다른 양자화 모델파일을 봐도 .. 제 기준에선 굳이? 싶습니다.

물론 32gb 나 24gb VRAM 의 Nvidia GPU 를 가지고 사용하시려는 경우에는 Dense 모델이 훨씬 좋은 결과를 얻을 수 있고 VRAM에 몽땅 올린다 치면 보통 맥 대비 nvidia gpu 가 5~6배 빠르니까 .. 대충 50tps 이상은 나와주지 않을까요?

대충 크기를 보니.. Q4 계열중에 선택한다 치면 17기가 언저리 나오는 것 같습니다. IQ4_XS가 17.28GB 니까 32GB VRAM 이면 컨텍스트 조금 타협하면 4bit 양자화 계열로는 선택지가 없진 않네요.

결과 자체는 27b 가 dense 모델 답게 조금더 섬세한 느낌이긴 하지만.. 저같이 코딩에 주로 쓰는 입장으론 설명의 섬세함 따위 뭣이 중헌가요. 코드가 비슷하면 .. 결론은 굳이??? 로 끝나는것을 ..

맥북이나 맥스튜디오 같은 메탈기반 장치를 사용하신다면 메모리 쫄리는거 아니면 그냥 35b 쓰셔도 될 것 같습니다.

이상입니다.

아래 뜨는 Download 나 PC App Store는 모두의 프린터와 상관없는 광고입니다!!

특히 PC App Store는 악성 소프트웨어이니 절대 클릭하지 마세요!!

모두의 프린터는 어떠한 경우에도 본인인증, 회원가입, 카드결제를 요구하지 않습니다.

Unsloth/Qwen-3.6-27b

이것이 좋아요:

관련

아래 뜨는 Download 나 PC App Store는 모두의 프린터와 상관없는 광고입니다!!

특히 PC App Store는 악성 소프트웨어이니 절대 클릭하지 마세요!!

모두의 프린터는 어떠한 경우에도 본인인증, 회원가입, 카드결제를 요구하지 않습니다.

이 글 공유하기:

이것이 좋아요:

관련

모두의프린터에서 더 알아보기