비개발자들은 Ai를 업무 자동화나 채팅을 통한 정보수집? 문제해결? 그런 용도로 가장 많이 사용하지만 개발자들의 경우 IDE에서 코드작성시 코드 자동완성에 도움을 주는 방식으로도 많이 사용하십니다.
Github의 Copilot이 어찌보면 선두주자였는데 지금은 좀 아쉽죠?
물론 클로드 코드 등장으로 코드작성은 개발자가 더이상 하지 않아도 된다느니 딸깍? 해줘? 하면 그만이고 코드한줄 보지 않고 무언갈 완성 했다느니 하는 시절이긴 합니다만..
그럼에도 불구하고 세상의 모든 개발자들이 더이상 코드작성을 하지 않고 ide를 사용하지 않는건 아니니까요.
저 역시도 클로드 코드도 쓰고 코덱스도 쓰고 에이전트에게 딸깍질도 시켜보며 살지만, 여전히 IDE를 띄우고 직접 코드 작성을 하며 살고 있습니다.
에이전트에게 시킬 일이 따로 있고 어쩔 수 없이 직접 해야 할 일도 따로 있다보니 그렇게 되네요.
지금까지 보통 일반적인 하드웨어들에선 시도 못해볼 큰 크기의 것들만 주로 다뤘는데요 이번에 추천드리는 모델은 그나마 어지간한 개발자들은 시도해볼만 한 타이니(?)한 크기의 놈입니다.
보통 자동완성용 모델은 큰 파리미터가 필요한 것도 아니고 컨텍스트 크기가 굳이 막 커야 할 필요도 없이 속도가 가장 중요한 기준입니다만..
최근에 나온 Qwen3.5 의 경우에도 2b(파일크기 2.67GB) 모델이 존재하지만 Qwen 모델이 최근에 생각을 너무 과도하게 하고 그 내용도 너저분해서 ;;
이런저런 소형 모델을 많이 바꿔가며 사용해 봤지만 현재까지는 Qwen2.5-coder-3b-instruct 모델이 이 목적에는 가장 부합하고 성능도 좋았습니다.
LLM PARAMS ARCH SIZE DEVICE
mlx-community/qwen2.5-coder-3b-instruct 3B Qwen2 1.75 GB Local
unsloth/qwen2.5-coder-3b-instruct 3B Qwen2 1.93 GB Local하나는 mlx-community 의 gguf/mlx 모델이고 하나는 unsloth 모델입니다. mlx모델은 4bit 양자화 모델이고 unsloth는 Q4_K_M 양자화 모델입니다. 실 사용은 unsloth 모델을 사용합니다만, 비교를 위해서 mlx모델도 다운받아 뒀습니다.

모델 로드 전에 메모리 상태입니다.


위는 mlx 아래는 unsloth 모델입니다. 2.66GB(mlx) / 3.78GB(unsloth) 정도 메모리가 증가하네요. 대부분의 llm 모델들은 모델 파일 크기보다 2~30% 정도 더 메모리 공간을 차지합니다.
# mlx-community/qwen2.5-coder-3b-instruct
› 양자컴퓨터란?
양자컴퓨터는 양자의 성질을 활용하여 정보를 처리하는 컴퓨터 시스템입니다. 이들은 고려하지 않은 양자의 흐름을 통해 정보를 속도가 훨씬 빠르게 처리할 수
있게 합니다.
양자컴퓨터의 주요 특징은 다음과 같습니다:
1. 양자의 흐름을 활용: 양자들은 서로 다른 상태를 가질 수 있고, 이는 양자기반의 정보 처리에 유용합니다.
2. 속도 높음: 양자 정보 처리는 고려하지 않은 상황에서의 정보 처리 속도가 훨씬 빠릅니다.
3. 용량 높음: 양자기반의 컴퓨터는 대규모 정보 처리를 용이하게 합니다.
4. 병렬 처리能力强: 양자기반의 컴퓨터는 병렬 처리를 통해 더 빠른 속도로 작업을 수행할 수 있습니다.
5. 에너지 절약: 양자기반의 컴퓨터는 에너지 효율이 뛰어납니다.
양자컴퓨터는 현재 연구 중이며, 향후 정보처리에 중요한 역할을 할 것으로 기대됩니다.
Prediction Stats:
Stop Reason: eosFound
Tokens/Second: 159.60
Time to First Token: 0.162s
Prompt Tokens: 38
Predicted Tokens: 282
Total Tokens: 320
# unsloth/qwen2.5-coder-3b-instruct
› 양자컴퓨터란?
양자컴퓨터는 컴퓨터를 바이오나물질에 기반하여 만든 컴퓨터입니다. 이 컴퓨터는 일반적인 전자컴퓨터에 비해 작업 속도가 매우 빠르고, 고성능을 제공합니다.
양자컴퓨터는 양자역학에 기반하여 작동하며, 양자역학은 물질의 기하학을 바탕으로 하는 현상입니다.
양자컴퓨터는 다양한 분야에서 사용됩니다. 예를 들어, 암호화, 물리학, 생물학, 화학 등에서 고정된 계산이나 복잡한 문제를 효율적으로 해결하는 데 도움이
됩니다. 또한, 양자컴퓨터는 새로운 기술을 개발하고, 새로운 분야를 열어 줄 수 있습니다.
Prediction Stats:
Stop Reason: eosFound
Tokens/Second: 144.15
Time to First Token: 0.119s
Prompt Tokens: 38
Predicted Tokens: 185
Total Tokens: 223두 모델 다 140 이상의 tps를 보여줍니다.
Qwen3, 3.5 등 Qwen3 도 나온지 꽤 된 상황이지만 돌고 돌아 Qwen2.5-coder-3b에 정착한 가장 큰 이유는 자동완성에 사용할 작은 파라미터의 모델이 생각보다 많지 않고 그중 FIM(Fill In the Middle)이 다양한 플러그인에서 문제 없이 동작하는 모델을 찾기도 쉽지 않아서 결국 이 모델이 정착 했습니다.
역시나 mlx 모델이 다소 속도와 메모리 사용량에서 이점이 존재하긴 합니다만, 워낙 아직은 mlx를 신뢰하긴 좀더 시간이 필요하다 생각 하는 관계로 맥에서 다소 속도저하를 감수하더라도 unsloth 모델을 사용하고 있습니다.
Nvidia 의 gpu를 쓰신다면 더더욱 unsloth가 답이겠지요 ㅎㅎ
ide 의 ai 플러그인에 물려 쓰실 자동완성과 가볍고 빠른 snippet 생성등의 용도에 사용할 모델을 찾으신다면 요놈 한번 사용해 보시길 추천드립니다.
댓글을 달려면 로그인해야 합니다.