연구진이 대만 법률 시스템의 공식 자료를 활용한 LLM 평가 벤치마크 TW-LegalBench를 공개했어요. TW-LegalBench는 객관식 문제, 주관식 에세이, 법원 판결 예측 세 가지 유형의 과제를 포함하며, 총 29,000여 개 항목으로 구성돼요. 현재 최고 성능 모델은 변호사 시험 합격률에 근접하지만 판사·검사 수준에는 미치지 못하며, 정확한 법 조항 인용에는 어려움을 겪는 것으로 나타났어요.