NVIDIA Nemotron-3-Super

DGX-Spark 를 클러스터로 사용중인 지인이 한분 계신데요 몇일 전에 Nemotron 새 모델이 나왔다고 꽤 쓸만 하다는 말씀을 해주셔서.. 간단히 테스트를 하는 중입니다.

사실 llama-nemotron 계열 모델은 잠시 사용을 해봤었는데 일단 llama 자체가 저와는 좀 안맞는 모델이어서 아무리 nvidia 가 파인튜닝을 했다 한들 근본이 어디 가진 않을거라 생각 해서 nemotron 은 그리 관심을 두지 않았습니다.

그래도 llama가 아닌 nvidia 가 처음부터 학습 시켰다는 글들을 보고 몇 달 전에 나온 Nemotron-3-nano 의 경우에는 사용을 잠시 해봤습니다만. 아무래도 제가 사용하는 장치가 NVIDIA 가 아닌 애플 Metal 기반 장치다보니 자잘한 문제가 있었습니다.

MLX 모델이 속도는 좋지만 여러번 말씀 드렸듯이 .. MLX 모델은 아직 안정성이좀 ㅠㅠ 아쉬워서.. 최근에는 Unsloth에서 파인튜닝한 GGUF 모델들을 주로 사용중인데요, 현재까진 Minimax-m2.5 나 Qwen3.5, glm-4.7-flash 등 Unsloth 의 모델들을 만족스럽게 문제 없이 사용중이다보니, Unsloth 에 Nemotron-3-Super가 올라온걸 보니 한번 사용해보고 싶어졌네요..

일단 Nano 의 경우에는 30B이고 24GB VRAM 에서도 동작 한다지만 .. 일단 제 환경에서 굳이 VRAM 걱정을 해야할 크기의 모델은 아니라서 우선은 120B A12B인 Super 를 먼저 써보려 합니다.

혹시 몰라 Unsloth가 파인튜닝한 모델인 unsloth/NVIDIA-Nemotron 3 Super 120B A12B UD Q4_K_XL과 nvidia/NVIDIA Nemotron 3 Suepr 120B A12B Q4_K_M 둘다 받아서 이것저것 테스트를 해보고 있습니다.

어느정도 수준인지는 좀 다양하게 써봐야 말씀을 드릴 수 있을것 같으니.. 이 글에선 python snake game 같은 같단한 프롬프트로 tps 정도나 언급하고 넘어가고 사용해 보면서 기존에 많이 써온 minimax-m2.5 모델과 어느정도 차이가 나는지 계속 글을 작성 해보겠습니다.

Bash

pirogom@pirogom-Mac-Studio ~ % lms ls

You have 8 models, taking up 536.87 GB of disk space.

LLM                  PARAMS       ARCH          SIZE         DEVICE
glm-4.6v-flash       9.4B         glm4          9.74 GB      Local
glm-4.7-flash        64x2.6B      DeepSeek 2    17.52 GB     Local
minimax-m2.5         256x4.9B     minimax-m2    131.32 GB    Local
qwen3-coder-next     512x2.5B     qwen3next     49.61 GB     Local
qwen3.5-122b-a10b    122B-A10B    qwen35moe     78.84 GB     Local
qwen3.5-2b           2B           qwen35        2.67 GB      Local
qwen3.5-397b-a17b    397B-A17B    qwen35moe     247.10 GB    Local

EMBEDDING                               PARAMS    ARCH          SIZE        DEVICE
text-embedding-nomic-embed-text-v1.5              Nomic BERT    84.11 MB    Local

pirogom@pirogom-Mac-Studio ~ % lms ls

You have 8 models, taking up 536.87 GB of disk space.

LLM                  PARAMS       ARCH          SIZE         DEVICE
glm-4.6v-flash       9.4B         glm4          9.74 GB      Local
glm-4.7-flash        64x2.6B      DeepSeek 2    17.52 GB     Local
minimax-m2.5         256x4.9B     minimax-m2    131.32 GB    Local
qwen3-coder-next     512x2.5B     qwen3next     49.61 GB     Local
qwen3.5-122b-a10b    122B-A10B    qwen35moe     78.84 GB     Local
qwen3.5-2b           2B           qwen35        2.67 GB      Local
qwen3.5-397b-a17b    397B-A17B    qwen35moe     247.10 GB    Local

EMBEDDING                               PARAMS    ARCH          SIZE        DEVICE
text-embedding-nomic-embed-text-v1.5              Nomic BERT    84.11 MB    Local

현재 제가 LM Studio 에 물려쓰고있는 모델들입니다. 목적 따라서 이런저런 짓에 사용중인데 큰일(?)에 주로 쓰는 모델은 minimax-m2.5, qwen3-coder-next, qwen3.5-122b-a10b 정도겠네요. 에이전트에는 주로 minimax-m2.5를 사용하는 편입니다.

vision 이 필요한 간단한 작업들에는 glm-4.6v-flash 를 사용중이고 OMO 의 explorer 같이 속도가 필요한 작업엔 glm-4.7-flash 를 사용중이구요.. IDE 에서 자동완성에는 qwen3.5-2b 를 사용중입니다. 작고 가벼워서.. (2.67GB를 작고 가볍다고 할만 한지는 모르겠습니다만 ㅎㅎ ) IDE에 붙여서 자동완성이나 FIM(Fill In the Middle)용으론 쓸만 합니다.

Bash

pirogom@pirogom-Mac-Studio ~ % lms ls

You have 10 models, taking up 706.70 GB of disk space.

LLM                                          PARAMS       ARCH              SIZE         DEVICE
glm-4.6v-flash                               9.4B         glm4              9.74 GB      Local
glm-4.7-flash                                64x2.6B      DeepSeek 2        17.52 GB     Local
minimax-m2.5                                 256x4.9B     minimax-m2        131.32 GB    Local
nvidia/nemotron-3-super (1 variant)          120B         nemotron_h_moe    86.05 GB     Local
qwen3-coder-next                             512x2.5B     qwen3next         49.61 GB     Local
qwen3.5-122b-a10b                            122B-A10B    qwen35moe         78.84 GB     Local
qwen3.5-2b                                   2B           qwen35            2.67 GB      Local
qwen3.5-397b-a17b                            397B-A17B    qwen35moe         247.10 GB    Local
unsloth/nvidia-nemotron-3-super-120b-a12b    120B-A12B    nemotron_h_moe    83.78 GB     Local

EMBEDDING                               PARAMS    ARCH          SIZE        DEVICE
text-embedding-nomic-embed-text-v1.5              Nomic BERT    84.11 MB    Local

pirogom@pirogom-Mac-Studio ~ % lms ls

You have 10 models, taking up 706.70 GB of disk space.

LLM                                          PARAMS       ARCH              SIZE         DEVICE
glm-4.6v-flash                               9.4B         glm4              9.74 GB      Local
glm-4.7-flash                                64x2.6B      DeepSeek 2        17.52 GB     Local
minimax-m2.5                                 256x4.9B     minimax-m2        131.32 GB    Local
nvidia/nemotron-3-super (1 variant)          120B         nemotron_h_moe    86.05 GB     Local
qwen3-coder-next                             512x2.5B     qwen3next         49.61 GB     Local
qwen3.5-122b-a10b                            122B-A10B    qwen35moe         78.84 GB     Local
qwen3.5-2b                                   2B           qwen35            2.67 GB      Local
qwen3.5-397b-a17b                            397B-A17B    qwen35moe         247.10 GB    Local
unsloth/nvidia-nemotron-3-super-120b-a12b    120B-A12B    nemotron_h_moe    83.78 GB     Local

EMBEDDING                               PARAMS    ARCH          SIZE        DEVICE
text-embedding-nomic-embed-text-v1.5              Nomic BERT    84.11 MB    Local

nvidia/nemotron-3-super 는 nvidia 버전이고 unsloth가 붙은게 unsloth 가 파인튜닝한 모델입니다. 우선 nvidia 버전 먼저 간단히 돌려보겠습니다. 양자화는 Q4_K_M 입니다.

Bash

Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 38.43
  Time to First Token: 1.375s
  Prompt Tokens: 37
  Predicted Tokens: 1012
  Total Tokens: 1049
  
Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 38.28
  Time to First Token: 2.902s
  Prompt Tokens: 972
  Predicted Tokens: 1452
  Total Tokens: 2424

Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 38.43
  Time to First Token: 1.375s
  Prompt Tokens: 37
  Predicted Tokens: 1012
  Total Tokens: 1049
  
Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 38.28
  Time to First Token: 2.902s
  Prompt Tokens: 972
  Predicted Tokens: 1452
  Total Tokens: 2424

2회 돌려본건데 tps 자체는 응? 싶은데 Thinking 시간이 minimax-m2.5 보다 확실히 짧네요. minimax-m2.5 의 경우 Time to First Token 이 mlx 모델이 9초대, unsloth 모델은 13초대였는데 ㅎㅎ

이제 unsloth 의 Q4_K_XL 양자화 모델을 돌려봅니다.

메모리 사용량 자체는 비슷하네요..

Bash

Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 32.54
  Time to First Token: 1.345s
  Prompt Tokens: 37
  Predicted Tokens: 1845
  Total Tokens: 1882
  
Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 32.42
  Time to First Token: 4.537s
  Prompt Tokens: 1767
  Predicted Tokens: 1735
  Total Tokens: 3502

Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 32.54
  Time to First Token: 1.345s
  Prompt Tokens: 37
  Predicted Tokens: 1845
  Total Tokens: 1882
  
Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 32.42
  Time to First Token: 4.537s
  Prompt Tokens: 1767
  Predicted Tokens: 1735
  Total Tokens: 3502

2회 돌려봤습니다.

아무래도 앞서 돌려본 모델은 Q4_K_M 이고 Unsloth 는 Q4_K_XL 이라서 성능차이는 약간 나는듯 싶은데요, 이렇게 보니 이게 과연 Q4_K_M 과 Q4_K_XL 의 차이인가가 궁금해지네요.. unsloth 모델중 Q4_K_M도 받아서 돌려봐야 겠습니다.

Bash

pirogom@pirogom-Mac-Studio ~ % lms ls

You have 11 models, taking up 789.24 GB of disk space.

LLM                                                 PARAMS       ARCH              SIZE         DEVICE
glm-4.6v-flash                                      9.4B         glm4              9.74 GB      Local
glm-4.7-flash                                       64x2.6B      DeepSeek 2        17.52 GB     Local
minimax-m2.5                                        256x4.9B     minimax-m2        131.32 GB    Local
nvidia-nemotron-3-super-120b-a12b@q4_k_xl           120B-A12B    nemotron_h_moe    83.78 GB     Local
nvidia/nemotron-3-super (1 variant)                 120B         nemotron_h_moe    86.05 GB     Local
qwen3-coder-next                                    512x2.5B     qwen3next         49.61 GB     Local
qwen3.5-122b-a10b                                   122B-A10B    qwen35moe         78.84 GB     Local
qwen3.5-2b                                          2B           qwen35            2.67 GB      Local
qwen3.5-397b-a17b                                   397B-A17B    qwen35moe         247.10 GB    Local
unsloth/nvidia-nemotron-3-super-120b-a12b@q4_k_m    120B-A12B    nemotron_h_moe    82.54 GB     Local

EMBEDDING                               PARAMS    ARCH          SIZE        DEVICE
text-embedding-nomic-embed-text-v1.5              Nomic BERT    84.11 MB    Local

pirogom@pirogom-Mac-Studio ~ % lms ls

You have 11 models, taking up 789.24 GB of disk space.

LLM                                                 PARAMS       ARCH              SIZE         DEVICE
glm-4.6v-flash                                      9.4B         glm4              9.74 GB      Local
glm-4.7-flash                                       64x2.6B      DeepSeek 2        17.52 GB     Local
minimax-m2.5                                        256x4.9B     minimax-m2        131.32 GB    Local
nvidia-nemotron-3-super-120b-a12b@q4_k_xl           120B-A12B    nemotron_h_moe    83.78 GB     Local
nvidia/nemotron-3-super (1 variant)                 120B         nemotron_h_moe    86.05 GB     Local
qwen3-coder-next                                    512x2.5B     qwen3next         49.61 GB     Local
qwen3.5-122b-a10b                                   122B-A10B    qwen35moe         78.84 GB     Local
qwen3.5-2b                                          2B           qwen35            2.67 GB      Local
qwen3.5-397b-a17b                                   397B-A17B    qwen35moe         247.10 GB    Local
unsloth/nvidia-nemotron-3-super-120b-a12b@q4_k_m    120B-A12B    nemotron_h_moe    82.54 GB     Local

EMBEDDING                               PARAMS    ARCH          SIZE        DEVICE
text-embedding-nomic-embed-text-v1.5              Nomic BERT    84.11 MB    Local

q4_k_m을 받았더니 기존에 unsloth/nvidia-nemotron-3-super-120b-a12b 이던 놈이 nvidia-nemotron-3-super-120b-a12b@q4_k_xl로 바꼈네요? 이놈들 이름 바꾸는 기준이 뭐지 ㅋㅋㅋ

자 unsloth 의 nvidia-nemotron-3-super Q4_K_M 모델 한번 돌려봅니다.

Bash

Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 32.69
  Time to First Token: 1.258s
  Prompt Tokens: 37
  Predicted Tokens: 1923
  Total Tokens: 1960
  
Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 32.57
  Time to First Token: 3.675s
  Prompt Tokens: 1358
  Predicted Tokens: 1450
  Total Tokens: 2808

Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 32.69
  Time to First Token: 1.258s
  Prompt Tokens: 37
  Predicted Tokens: 1923
  Total Tokens: 1960
  
Prediction Stats:
  Stop Reason: eosFound
  Tokens/Second: 32.57
  Time to First Token: 3.675s
  Prompt Tokens: 1358
  Predicted Tokens: 1450
  Total Tokens: 2808

돌려보니 Q4_K_XL 과 Q4_K_M의 차이가 아니라 unsloth가 파인튜닝 한거냐 아니냐에 따른 차이인것 같네요. 에이전트 붙여서 돌려보고 해야 알겠지만. 몇일 전에 공개된 모델이니 앞으로 이래저래 새로 튜닝해서 올라올거 생각 하면 우선 unsloth의 Q4_K_XL 모델로 사용해 봐야 겠습니다.

일단 IDE 의 플러그인에서 채팅기반으로 돌릴때는 조금 답답한 느낌의 속도긴 한데요. 전체적으론 minimax m2.5와 비슷하거나 약간 느린 느낌입니다.

에이전트에 물려서 돌리는거야 돌려놓고 쳐다도 안보니 결과를 놓고 봐야 겠지만 .. 일단 계속 써봐야 겠습니다.

아! 그러고 보니 이걸 써봐야 겟다 생각한 가장 큰 이유가 하나 있었네요.. 최대 1M 컨텍스트가 가능하다는 듯!! ㅋㅋㅋ

아래 뜨는 Download 나 PC App Store는 모두의 프린터와 상관없는 광고입니다!!

특히 PC App Store는 악성 소프트웨어이니 절대 클릭하지 마세요!!

모두의 프린터는 어떠한 경우에도 본인인증, 회원가입, 카드결제를 요구하지 않습니다.

NVIDIA Nemotron-3-Super

이것이 좋아요:

관련

아래 뜨는 Download 나 PC App Store는 모두의 프린터와 상관없는 광고입니다!!

특히 PC App Store는 악성 소프트웨어이니 절대 클릭하지 마세요!!

모두의 프린터는 어떠한 경우에도 본인인증, 회원가입, 카드결제를 요구하지 않습니다.

이 글 공유하기:

이것이 좋아요:

관련

모두의프린터에서 더 알아보기