DGX-Spark 를 클러스터로 사용중인 지인이 한분 계신데요 몇일 전에 Nemotron 새 모델이 나왔다고 꽤 쓸만 하다는 말씀을 해주셔서.. 간단히 테스트를 하는 중입니다.
사실 llama-nemotron 계열 모델은 잠시 사용을 해봤었는데 일단 llama 자체가 저와는 좀 안맞는 모델이어서 아무리 nvidia 가 파인튜닝을 했다 한들 근본이 어디 가진 않을거라 생각 해서 nemotron 은 그리 관심을 두지 않았습니다.
그래도 llama가 아닌 nvidia 가 처음부터 학습 시켰다는 글들을 보고 몇 달 전에 나온 Nemotron-3-nano 의 경우에는 사용을 잠시 해봤습니다만. 아무래도 제가 사용하는 장치가 NVIDIA 가 아닌 애플 Metal 기반 장치다보니 자잘한 문제가 있었습니다.
MLX 모델이 속도는 좋지만 여러번 말씀 드렸듯이 .. MLX 모델은 아직 안정성이좀 ㅠㅠ 아쉬워서.. 최근에는 Unsloth에서 파인튜닝한 GGUF 모델들을 주로 사용중인데요, 현재까진 Minimax-m2.5 나 Qwen3.5, glm-4.7-flash 등 Unsloth 의 모델들을 만족스럽게 문제 없이 사용중이다보니, Unsloth 에 Nemotron-3-Super가 올라온걸 보니 한번 사용해보고 싶어졌네요..
일단 Nano 의 경우에는 30B이고 24GB VRAM 에서도 동작 한다지만 .. 일단 제 환경에서 굳이 VRAM 걱정을 해야할 크기의 모델은 아니라서 우선은 120B A12B인 Super 를 먼저 써보려 합니다.
혹시 몰라 Unsloth가 파인튜닝한 모델인 unsloth/NVIDIA-Nemotron 3 Super 120B A12B UD Q4_K_XL과 nvidia/NVIDIA Nemotron 3 Suepr 120B A12B Q4_K_M 둘다 받아서 이것저것 테스트를 해보고 있습니다.
어느정도 수준인지는 좀 다양하게 써봐야 말씀을 드릴 수 있을것 같으니.. 이 글에선 python snake game 같은 같단한 프롬프트로 tps 정도나 언급하고 넘어가고 사용해 보면서 기존에 많이 써온 minimax-m2.5 모델과 어느정도 차이가 나는지 계속 글을 작성 해보겠습니다.
pirogom@pirogom-Mac-Studio ~ % lms ls
You have 8 models, taking up 536.87 GB of disk space.
LLM PARAMS ARCH SIZE DEVICE
glm-4.6v-flash 9.4B glm4 9.74 GB Local
glm-4.7-flash 64x2.6B DeepSeek 2 17.52 GB Local
minimax-m2.5 256x4.9B minimax-m2 131.32 GB Local
qwen3-coder-next 512x2.5B qwen3next 49.61 GB Local
qwen3.5-122b-a10b 122B-A10B qwen35moe 78.84 GB Local
qwen3.5-2b 2B qwen35 2.67 GB Local
qwen3.5-397b-a17b 397B-A17B qwen35moe 247.10 GB Local
EMBEDDING PARAMS ARCH SIZE DEVICE
text-embedding-nomic-embed-text-v1.5 Nomic BERT 84.11 MB Local현재 제가 LM Studio 에 물려쓰고있는 모델들입니다. 목적 따라서 이런저런 짓에 사용중인데 큰일(?)에 주로 쓰는 모델은 minimax-m2.5, qwen3-coder-next, qwen3.5-122b-a10b 정도겠네요. 에이전트에는 주로 minimax-m2.5를 사용하는 편입니다.
vision 이 필요한 간단한 작업들에는 glm-4.6v-flash 를 사용중이고 OMO 의 explorer 같이 속도가 필요한 작업엔 glm-4.7-flash 를 사용중이구요.. IDE 에서 자동완성에는 qwen3.5-2b 를 사용중입니다. 작고 가벼워서.. (2.67GB를 작고 가볍다고 할만 한지는 모르겠습니다만 ㅎㅎ ) IDE에 붙여서 자동완성이나 FIM(Fill In the Middle)용으론 쓸만 합니다.
pirogom@pirogom-Mac-Studio ~ % lms ls
You have 10 models, taking up 706.70 GB of disk space.
LLM PARAMS ARCH SIZE DEVICE
glm-4.6v-flash 9.4B glm4 9.74 GB Local
glm-4.7-flash 64x2.6B DeepSeek 2 17.52 GB Local
minimax-m2.5 256x4.9B minimax-m2 131.32 GB Local
nvidia/nemotron-3-super (1 variant) 120B nemotron_h_moe 86.05 GB Local
qwen3-coder-next 512x2.5B qwen3next 49.61 GB Local
qwen3.5-122b-a10b 122B-A10B qwen35moe 78.84 GB Local
qwen3.5-2b 2B qwen35 2.67 GB Local
qwen3.5-397b-a17b 397B-A17B qwen35moe 247.10 GB Local
unsloth/nvidia-nemotron-3-super-120b-a12b 120B-A12B nemotron_h_moe 83.78 GB Local
EMBEDDING PARAMS ARCH SIZE DEVICE
text-embedding-nomic-embed-text-v1.5 Nomic BERT 84.11 MB Localnvidia/nemotron-3-super 는 nvidia 버전이고 unsloth가 붙은게 unsloth 가 파인튜닝한 모델입니다. 우선 nvidia 버전 먼저 간단히 돌려보겠습니다. 양자화는 Q4_K_M 입니다.

Prediction Stats:
Stop Reason: eosFound
Tokens/Second: 38.43
Time to First Token: 1.375s
Prompt Tokens: 37
Predicted Tokens: 1012
Total Tokens: 1049
Prediction Stats:
Stop Reason: eosFound
Tokens/Second: 38.28
Time to First Token: 2.902s
Prompt Tokens: 972
Predicted Tokens: 1452
Total Tokens: 24242회 돌려본건데 tps 자체는 응? 싶은데 Thinking 시간이 minimax-m2.5 보다 확실히 짧네요. minimax-m2.5 의 경우 Time to First Token 이 mlx 모델이 9초대, unsloth 모델은 13초대였는데 ㅎㅎ
이제 unsloth 의 Q4_K_XL 양자화 모델을 돌려봅니다.

메모리 사용량 자체는 비슷하네요..
Prediction Stats:
Stop Reason: eosFound
Tokens/Second: 32.54
Time to First Token: 1.345s
Prompt Tokens: 37
Predicted Tokens: 1845
Total Tokens: 1882
Prediction Stats:
Stop Reason: eosFound
Tokens/Second: 32.42
Time to First Token: 4.537s
Prompt Tokens: 1767
Predicted Tokens: 1735
Total Tokens: 35022회 돌려봤습니다.
아무래도 앞서 돌려본 모델은 Q4_K_M 이고 Unsloth 는 Q4_K_XL 이라서 성능차이는 약간 나는듯 싶은데요, 이렇게 보니 이게 과연 Q4_K_M 과 Q4_K_XL 의 차이인가가 궁금해지네요.. unsloth 모델중 Q4_K_M도 받아서 돌려봐야 겠습니다.
pirogom@pirogom-Mac-Studio ~ % lms ls
You have 11 models, taking up 789.24 GB of disk space.
LLM PARAMS ARCH SIZE DEVICE
glm-4.6v-flash 9.4B glm4 9.74 GB Local
glm-4.7-flash 64x2.6B DeepSeek 2 17.52 GB Local
minimax-m2.5 256x4.9B minimax-m2 131.32 GB Local
nvidia-nemotron-3-super-120b-a12b@q4_k_xl 120B-A12B nemotron_h_moe 83.78 GB Local
nvidia/nemotron-3-super (1 variant) 120B nemotron_h_moe 86.05 GB Local
qwen3-coder-next 512x2.5B qwen3next 49.61 GB Local
qwen3.5-122b-a10b 122B-A10B qwen35moe 78.84 GB Local
qwen3.5-2b 2B qwen35 2.67 GB Local
qwen3.5-397b-a17b 397B-A17B qwen35moe 247.10 GB Local
unsloth/nvidia-nemotron-3-super-120b-a12b@q4_k_m 120B-A12B nemotron_h_moe 82.54 GB Local
EMBEDDING PARAMS ARCH SIZE DEVICE
text-embedding-nomic-embed-text-v1.5 Nomic BERT 84.11 MB Localq4_k_m을 받았더니 기존에 unsloth/nvidia-nemotron-3-super-120b-a12b 이던 놈이 nvidia-nemotron-3-super-120b-a12b@q4_k_xl로 바꼈네요? 이놈들 이름 바꾸는 기준이 뭐지 ㅋㅋㅋ
자 unsloth 의 nvidia-nemotron-3-super Q4_K_M 모델 한번 돌려봅니다.
Prediction Stats:
Stop Reason: eosFound
Tokens/Second: 32.69
Time to First Token: 1.258s
Prompt Tokens: 37
Predicted Tokens: 1923
Total Tokens: 1960
Prediction Stats:
Stop Reason: eosFound
Tokens/Second: 32.57
Time to First Token: 3.675s
Prompt Tokens: 1358
Predicted Tokens: 1450
Total Tokens: 2808돌려보니 Q4_K_XL 과 Q4_K_M의 차이가 아니라 unsloth가 파인튜닝 한거냐 아니냐에 따른 차이인것 같네요. 에이전트 붙여서 돌려보고 해야 알겠지만. 몇일 전에 공개된 모델이니 앞으로 이래저래 새로 튜닝해서 올라올거 생각 하면 우선 unsloth의 Q4_K_XL 모델로 사용해 봐야 겠습니다.
일단 IDE 의 플러그인에서 채팅기반으로 돌릴때는 조금 답답한 느낌의 속도긴 한데요. 전체적으론 minimax m2.5와 비슷하거나 약간 느린 느낌입니다.
에이전트에 물려서 돌리는거야 돌려놓고 쳐다도 안보니 결과를 놓고 봐야 겠지만 .. 일단 계속 써봐야 겠습니다.
아! 그러고 보니 이걸 써봐야 겟다 생각한 가장 큰 이유가 하나 있었네요.. 최대 1M 컨텍스트가 가능하다는 듯!! ㅋㅋㅋ
댓글을 달려면 로그인해야 합니다.