Pulse · AI 뉴스

Execution-State Capsules: 물리 AI 온디바이스 서비스의 저지연, 소규모 배치 지원을 위한 실행 상태 체크포인트 및 복구

NVIDIA · 2026-06-19

연구진은 LLM 서비스의 새로운 접근 방식인 Execution-State Capsules을 제안했어요. 이는 저지연, 소규모 배치, 온디바이스 물리 AI 서비스에 최적화된 기술로, 기존 KV 캐시 방식의 한계를 극복해요.

Execution-State Capsules은 전체 실행 상태를 그래프 기반으로 체크포인트하고 복구하는 방식으로, KV 캐시뿐 아니라 순환 상태, 컨볼루션 상태, MTP 상태, 메타데이터까지 포함해요.

RTX 5090에서 테스트 결과, GPU에 거주하는 스냅샷 및 복구는 밀리초 단위로 빠르게 진행되며, 토큰 수가 증가할수록 콜드 프리필 대비 TTFT 속도 향상 효과가 커져 최대 27배까지 증가했어요.

##LLM##온디바이스##실행상태##체크포인트##복구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기