DiffusionGemma 26B A4B를 테스트한 결과, autoregressive 모델과 다른 병목 현상을 보입니다. DiffusionGemma는 모델 가중치를 매번 읽는 256토큰 병렬 디노이징 단계를 수행하며, 메모리 대역폭에 제한됩니다. 에이전트 워크플로우에서는 DiffusionGemma가 토큰별이 아닌 병렬 방식으로 응답을 생성하여, 지연 시간 예측 가능성이 높습니다.
3090에서 DiffusionGemma 26B A4B는 짧고 깨끗한 프롬프트에서 최대 180토큰/초를 기록했지만, 디노이징 단계를 추가하면 속도가 빠르게 감소합니다. H100에서는 메모리 대역폭에 따라 성능 차이가 더욱 두드러집니다.
복잡한 도구 호출 시 autoregressive 모델은 30단계를 거치는 반면, DiffusionGemma는 출력 길이에 상관없이 고정된 디노이징 단계를 수행합니다. 에이전트 작업에서 지연 시간 변동성이 중요한 사용자들의 경험 공유가 필요합니다.