연구진은 언어 모델의 추론과 코드 실행 파이프라인 비교의 어려움을 해결하기 위해 모델이 코드로 추론을 표현하고, 언어 모델이 해당 코드를 시뮬레이션하는 중간 개입 방식을 도입했어요.
40개의 검증 가능한 알고리즘 벤치마크에서 코드 실행은 자연어 추론보다 31.6%p 더 높은 성능을 보였으며, 중간 개입은 자연어 추론과 거의 비슷한 성능을 나타냈어요.
결과를 통해 외부 실행의 신뢰성이 성능 향상에 중요한 역할을 하며, 코드 표현에서 자연어 추론을 유추하는 재구성 개입을 통해 원래 파이프라인과 유사한 성능을 회복할 수 있음을 확인했어요.