Pulse · AI 뉴스

일관성 있는 맥락이 LLM의 내부 상태를 변경시키는 현상: 기존 안전 시스템은 이를 감지하지 못함

Gemma · 2026-06-15

ngscode23 연구원이 LLM의 내부 상태가 일관성 있는 맥락에 의해 다른 영역으로 이동할 수 있으며, 기존 안전 시스템이 이를 놓칠 수 있다는 연구 결과를 발표했어요.

연구에 따르면, 동일한 질문이라도 맥락에 따라 모델의 내부 상태가 바뀌고, 이는 안전 정책 적용 방식에 영향을 미쳐 필터링 없이도 규칙을 우회할 수 있게 만들 수 있어요.

연구원은 Gemma-3-12B-IT 모델의 내부 상태 기하학, 잔차 스트림 경로, 원인 개입 등을 측정했으며, RLHF와 같은 기존 정렬 방법은 표면적인 수정에 불과하다고 지적했어요.

##LLM##안전##연구##Gemma##잠재공간
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기