본 논문에서는 일반적인 시간 불일치 제어 문제에서 결정론적 균형 정책을 학습하기 위한 모델 프리 강화 학습 알고리즘을 개발했어요. 확장된 해밀턴-야코비-벨만 시스템을 활용하여 원래의 시간 불일치 문제를 2단계 문제로 재구성했어요.
첫 번째 단계에서는 보조 함수가 주어지면 결정론적 정책 그래디언트 접근 방식을 사용하여 보조 시간 일관성 제어 문제에서 최적의 정책을 학습하고, 두 번째 단계에서는 업데이트된 정책을 기반으로 보조 함수를 학습해요.
두 단계의 반복적인 배우기 방식을 통해 다양한 시간 불일치 문제를 통일된 방식으로 해결하며, 평균-분산 포트폴리오 관리 및 비지수적 할인율을 고려한 최적 트래킹 포트폴리오와 같은 금융 분야에서 효과를 입증했어요.