연구진은 제로샷 분할 성능 향상을 위해 디퓨전 모델의 계층적 의미 진행을 활용하는 방법을 제시했어요. 컨텍스트 유사성 맵을 통해 고해상도 어텐션 맵과 U-Net 인코더 특징을 결합하여 각 픽셀에 대한 정밀하고 강력한 표현을 제공해요. 적응형 타임스텝 선택 메커니즘은 각 픽셀에 최적의 타임스텝을 선택하여 기존 제로샷 분할 방법보다 성능을 향상시켰어요.
기존 디퓨전 기반 방법은 공간 해상도와 문맥 정보 간의 균형, 그리고 단일 정적 타임스텝 의존성이라는 한계에 직면했어요. 연구진은 이를 극복하기 위해 컨텍스트 유사성 맵과 적응형 타임스텝 선택이라는 두 가지 핵심 기술을 도입했어요.
새로운 방법은 다양한 디퓨전 모델의 디노이징 과정에서 나타나는 계층적 의미 진행을 활용하여, 초기에 부분 수준의 추상화에서 객체 수준의 추상화로의 전환을 파악했어요. 실험 결과, 기존 제로샷 분할 기준선보다 우수한 성능을 보였으며, 컨텍스트 특징과 동적 계층적 타임스텝 선택의 효과를 입증했어요.