Pulse · AI 뉴스

듀얼 GPU 환경에서 llama.cpp 행/텐서 분할과 ik_llama 그래프 분할 추론 속도 비교

Qwen · 2026-06-13

사용자가 듀얼 NVIDIA RTX 3080 GPU 환경에서 Qwen3.6-27B 모델을 사용하여 llama.cpp의 다양한 분할 방식과 ik_llama의 그래프 분할 방식을 벤치마크했어요.

llama.cpp의 행 분할 방식은 GPU 메모리 사용량이 가장 적었지만, 그래프 분할 방식이 가장 빠른 추론 속도를 보여줬어요.

ik_llama의 그래프 분할 방식은 llama.cpp의 텐서 분할 방식보다 더 빠른 추론 속도를 제공하며, 특히 높은 디바이스 스레드(d) 환경에서 성능 차이가 두드러졌어요.

##llama.cpp##ik_llama##GPU##벤치마크##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게