사용자가 듀얼 NVIDIA RTX 3080 GPU 환경에서 Qwen3.6-27B 모델을 사용하여 llama.cpp의 다양한 분할 방식과 ik_llama의 그래프 분할 방식을 벤치마크했어요.
llama.cpp의 행 분할 방식은 GPU 메모리 사용량이 가장 적었지만, 그래프 분할 방식이 가장 빠른 추론 속도를 보여줬어요.
ik_llama의 그래프 분할 방식은 llama.cpp의 텐서 분할 방식보다 더 빠른 추론 속도를 제공하며, 특히 높은 디바이스 스레드(d) 환경에서 성능 차이가 두드러졌어요.