SPOT-E는 시각-언어 모델(VLM)이 증거 기반 작업에서 성능을 향상시키는 테스트 시간 방법입니다. 질문에 따라 시각적 스포트라이트를 생성하여 인스턴스별로 경량 튜닝을 통해 최적화합니다.
기존 엔트로피 최소화 방법의 모호성을 해결하기 위해 저엔트로피 앵커와 엔트로피 조형 목표를 도입하여 답변 불확실성을 줄이고 높은 신뢰도 토큰을 유지합니다.
다양한 벤치마크에서 SPOT-E는 일관된 성능 향상과 시각적 왜곡에 대한 향상된 견고성을 보여줍니다. 코드는 GitHub에서 공개되었습니다.