연구진은 에피소드별 선호도 피드백을 활용한 강화 학습에 대한 이론적 연구를 진행했어요. 두 정책을 비교하여 선호도를 이진 레이블로 받는 방식으로, Bradley–Terry–Luce 링크를 통해 누적 보상의 차이를 모델링해요.
연구는 보상 및 전환 함수에 대한 커널 기반 가정을 바탕으로, 에피소드 종료 시 비교에 적합한 선호도 기반 가치 추정 및 신뢰 구간을 개발했어요.
에피소드 수에 따라 하위 선형적으로 스케일링되는 고확률 후회 경계 증명으로, 학습된 정책의 가치가 최적 정책의 가치로 수렴하는 것을 확인했어요.