최근 주로 사용하는 minimax m2.5 모델의 gguf/mlx 모델과 unsloth 모델의 단순 프롬프트 tps 차이에 대해서 기록을 남깁니다.
Bash
minimax-m2.5:Q4_K_S - unsloth
Prediction Stats:
Stop Reason: eosFound
Tokens/Second: 45.72
Time to First Token: 13.356s
Prompt Tokens: 6057
Predicted Tokens: 166
Total Tokens: 6223
minimax-m2.5:4Bit - lmstudio-community
Prediction Stats:
Stop Reason: eosFound
Tokens/Second: 38.61
Time to First Token: 9.598s
Prompt Tokens: 6153
Predicted Tokens: 1217
Total Tokens: 7370lmstudio-community 의 4bit 양자화 mlx 모델보다 unsloth 의 Q4_K_S 모델이 좀더 빠르네요. 일단 툴 사용에 문제는 없는 모델이지만 .. 성능에 큰 차이가 없으니 .. unsloth 모델로 교체해서 사용해봐야 겠습니다.