연구진이 나이지리아 공론조사 맥락 이해를 위한 9차원 평가 프레임워크(MIF)를 발표했어요. 기존 벤치마크는 감정 분류로만 접근하지만, AI는 맥락 이해 실패로 인해 오판하는 경우가 많다고 지적했어요. MIF는 레지스터, 진정한 의도, 풍자, 숨겨진 의미 등 9가지 차원을 평가하며, Gemini 2.5 Flash 모델을 활용해 성능을 검증했어요.
MIF 스키마를 활용한 프롬프트 조건에서 모델의 레지스터 분류 정확도는 40% 포인트 향상(33.3% → 73.3%)되었고, 전체 의미 지능 점수는 5.4 포인트 상승했어요. 특히 레지스터 식별, 숨겨진 의미 감지, 전략적 행동 추천에서 큰 개선을 보였어요.
연구진은 MIF 사양, 주석 가이드라인, 30개 항목의 공개 교정 세트를 공개하여 재현성을 지원하며, 오염 방지를 위해 비공개 홀드아웃 코퍼스를 보관하고 있어요.