Cohere가 다중 테넌트 LLM 플랫폼에서 공정한 추론 스케줄링을 위한 새로운 솔루션을 공개했어요. 이 솔루션은 특정 고객의 트래픽 급증이 다른 고객의 지연 문제를 일으키는 'noisy neighbor' 문제를 해결합니다.
Cohere는 Rate Limiter, Performance Tier, Deficit Round Robin (DRR), Priority의 4가지 메커니즘을 결합하여 테넌트 간 추론 용량을 공정하게 관리하며, 각 테넌트의 우선순위와 마감시간을 유지합니다.
Deficit Round Robin (DRR) 알고리즘은 각 테넌트에게 예산(quantum)을 할당하여, 트래픽 급증이 다른 테넌트의 지연으로 이어지지 않도록 공정하게 GPU 자원을 분배하며, 요청 기반 또는 토큰 기반 예산 모델을 사용합니다.