Pulse · AI 뉴스

시간 불일치 제어 문제에서 균형 학습을 위한 결정론적 정책 그래디언트

arXiv cs.LG · 2026-06-10

본 논문에서는 일반적인 시간 불일치 제어 문제에서 결정론적 균형 정책을 학습하기 위한 모델 프리 강화 학습 알고리즘을 개발했어요. 확장된 해밀턴-야코비-벨만 시스템을 활용하여 원래의 시간 불일치 문제를 2단계 문제로 재구성했어요.

첫 번째 단계에서는 보조 함수가 주어지면 결정론적 정책 그래디언트 접근 방식을 사용하여 보조 시간 일관성 제어 문제에서 최적의 정책을 학습하고, 두 번째 단계에서는 업데이트된 정책을 기반으로 보조 함수를 학습해요.

두 단계의 반복적인 배우기 방식을 통해 다양한 시간 불일치 문제를 통일된 방식으로 해결하며, 평균-분산 포트폴리오 관리 및 비지수적 할인율을 고려한 최적 트래킹 포트폴리오와 같은 금융 분야에서 효과를 입증했어요.

##강화학습##최적제어##시간불일치##정책그래디언트

매일 핵심 AI 소식을 한국어로, 빠르게