연구자들은 코딩 에이전트가 소프트웨어와 상호작용하는 방식을 분석하기 위해 transformers 라이브러리를 활용한 새로운 벤치마크 도구를 개발했어요. 기존 벤치마크가 최종 결과만 평가하는 것과 달리, 이 도구는 에이전트가 답을 찾는 과정의 효율성을 측정합니다.
연구팀은 CLI, Skill, 작업별 예제를 통해 transformers 사용법을 간소화하여 에이전트의 토큰 사용량을 줄일 수 있다고 판단하고, 이를 검증하기 위해 Hugging Face Jobs를 활용해 다양한 모델과 버전을 테스트했어요.
벤치마크 결과, 에이전트가 도구를 효율적으로 활용하도록 소프트웨어를 설계하는 것이 중요하며, 명확한 API와 풍부한 문서화는 에이전트가 도구를 빠르게 이해하고 활용하는 데 필수적이라고 강조했어요. 이를 통해 개발자는 에이전트에게 더 적합한 소프트웨어를 만들 수 있습니다.