연구진은 다중 모달 대규모 언어 모델(MLLM)의 단축키 문제를 해결하기 위해 ViGOS라는 시각 기반 온정책 자기 증류 프레임워크를 제안했어요. ViGOS는 학생 모델이 먼저 이미지 설명을 작성하고 추론을 수행하도록 하여 시각적 이해와 추론을 분리하는 방식을 사용해요. 일반적인 시각-언어, 전문가 추론, 시각 수학, 공간 기반, 시각-언어 우선 순위 벤치마크에서 ViGOS는 OPSD의 장점을 유지하면서 이미지 기반 행동을 개선했어요.