Pulse · AI 뉴스

StepGuard: 웹 탐색 시 단일 단계 교정으로 안전성 강화

StepGuard · 2026-06-16

연구진이 웹 탐색 시 단일 단계의 취약점을 해결하기 위해 DDPO와 CANR을 결합한 StepGuard 프레임워크를 개발했어요. DDPO는 탐색과 질문 답변 모드를 전환하여 보상 충돌을 완화하고, CANR은 단계별 신뢰도를 기반으로 오류를 교정해요. StepGuard는 기존 웹 탐색 벤치마크에서 최고 성능을 달성하며 탐색 및 답변 정확도를 크게 향상시켰어요.

StepGuard는 Dynamic Dual-Policy Optimization (DDPO)과 Confidence-Guided Adaptive Navigation Reflection (CANR)을 주요 구성 요소로 합니다. DDPO는 탐색 우선 모드와 답변 우선 모드를 동적으로 전환하여 보상 불일치를 완화하고, CANR은 단계별 신뢰도를 추정하여 필요한 경우에만 반성을 트리거하고 자체 수정 장려해요.

연구 결과, StepGuard는 기존 웹 탐색 벤치마크에서 새로운 최고 성능을 기록하며, 웹 탐색 및 답변 정확도를 향상시키는 데 효과적임을 입증했어요.

##웹탐색##AI에이전트##강화학습##StepGuard
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기