이것저것 해보는김에 .. LM Studio 를 다시 업데이트하고 앞서 Ollama 와 mlx-ml 로 테스트 해본 Qwen3-Coder-Next의 MLX 버전 모델을 LM Studio에 올려 봤습니다.

기왕 하는김에 4Bit, 8Bit 차이도 궁금해서 둘다 받아 봤습니다.
기존에 ollama 의 mlx 가 아닌 gguf 모델의 간단한 숫자야구 게임 코드 작성의 결과는 ..
Bash
// OLLAMA , q4_K_M
total duration: 35.760818959s
load duration: 68.150167ms
prompt eval count: 25 token(s)
prompt eval duration: 642.200666ms
prompt eval rate: 38.93 tokens/s
eval count: 1212 token(s)
eval duration: 34.830003762s
eval rate: 34.80 tokens/s
// OLLAMA , q8_0
total duration: 38.475538209s
load duration: 66.668375ms
prompt eval count: 25 token(s)
prompt eval duration: 835.311584ms
prompt eval rate: 29.93 tokens/s
eval count: 1217 token(s)
eval duration: 37.353103146s
eval rate: 32.58 tokens/sq4_K_M 이 34.80tps q8_9 은 32.58 tps 정도 나왔습니다.

68.17 tok/sec 가 나왔습니다.
8Bit 양자화는 어떤지 돌려보겠습니다.

59.51 tok/sec네요 ..
ollama의 경우 qwen3-coder-next 모델이 q4_K_M과 q8_0의 tps 차이가 그리 크게 나지 않았습니다만.. LM Studio에서 mlx 모델을 돌린 결과는 4bit 와 8bit 의 속도차이가 꽤 납니다.
그런 모든 것을 차치하고서도 .. gguf/mlx 와 그냥 gguf 의 토큰 생성량 차이가 2배 가까이 나는 상황이네요..
이런 상황이면 .. 다시 LM Studio 로 넘어가 봐야 겠습니다.
LM Studio 의 lms 명령이 좀 성향에 안맞긴 하지만 .. 적응해 봐야겠지요 ㅋㅋ
이상입니다.
댓글을 달려면 로그인해야 합니다.