Reddit 사용자가 Qwen 3.6-35B 모델의 벤치마크 속도와 실제 사용 시 성능 차이로 어려움을 겪고 있습니다. IQ4XS로 변경하여 벤치마크에서는 700tk/s의 빠른 프리필 속도를 보였으나, 실제 사용 시 토큰당 7.79ms, 초당 128.30 토큰의 느린 속도를 나타냅니다. 사용자는 RTX 4060 노트북 GPU 환경에서 Llama 서버 설정을 조정해봤지만 문제 해결에 어려움을 느끼며, 원인 분석 및 해결 방법을 문의했습니다.