AMD ROCm 환경에서 Step-3.7-Flash 모델을 사용할 때 94k 토큰을 초과하면 컨텍스트가 손상될 수 있습니다. Vulkan은 더 긴 컨텍스트를 유지하지만, ROCm은 프롬프트 처리 속도가 더 빠릅니다.
Step의 추론 모드가 기본적으로 활성화되어 있어, thinking_budget_tokens을 256으로 설정하여 2000토큰 이상의 불필요한 추론을 방지해야 합니다.
RAG/분류 작업에서 64~1024 토큰의 thinking_budget_tokens 범위 내에서 품질이 거의 동일하므로, 256 토큰을 사용하는 것이 실용적입니다.