연구진은 GUI 에이전트 학습 시 정책 편차로 인해 발생하는 정책 유도 오프 트랙 상태에 대한 지도 부족 문제를 해결하기 위해 SGCD(Skill-Guided Continuation Distillation) 프레임워크를 제안했어요.
SGCD는 스킬 기반 정책을 활용하여 성공적인 연속 동작을 생성하고, 이를 전문가 트랙과 혼합하여 오프 트랙 상태에 대한 효과적인 지도를 제공해요.
OSWorld-Verified 환경에서 SGCD는 세 가지 기본 모델의 성공률을 30%대에서 50% 이상으로 향상시켰으며, 효과성과 일반성을 입증했어요.