사용자가 LlamaCpp를 CUDA와 Vulkan을 동시에 사용하여 컴파일하는 데 성공했어요. 이는 W7800 GPU 최적화 과정에서 발견된 방법입니다. MiniMax-M3 모델을 사용할 때 디코딩 속도가 약 10% 향상된 것으로 나타났어요.
ds4 툴이 CUDA와 Vulkan을 함께 사용하도록 권장하여 컴파일을 시도했고, 그 결과 성능 향상을 확인했습니다. 정확한 성능 비교를 위해 벤치마크 테스트를 진행할 예정입니다.
다른 사용자도 유사한 시도를 해봤는지 질문하며, 관련 경험 공유를 요청했어요.