연구진은 보상이 무작위로 누락되는 MDP 환경에서 Off-Policy 평가(OPE) 문제를 다루고 있어요. 보상 누락은 의료, 마케팅 등 실제 환경에서 흔히 발생하며, 기존 방법으로는 편향을 해결하기 어려워요.
보상 의존도 경향 모델과 미래 상태를 활용해 누락된 보상을 식별하고, MNAR 메커니즘을 명시적으로 모델링하지 않고도 보상을 복구하는 브리지 함수를 도입했어요.
Fitted-Q-Evaluation 스타일의 OPE 추정기를 제안하여 누락된 보상을 전파하고, 과거 누락 지표에 따라 목표 정책을 조정할 수 있도록 설계했으며, 일관성 및 유한 표본 오차 경계를 확립했어요.