Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios

Created by
  • Haebom

저자

Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li

개요

본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 지시사항 준수 능력을 평가하기 위한 새로운 벤치마크, AgentIF를 제안합니다. AgentIF는 실제 에이전트 애플리케이션 50개에서 수집한 707개의 인간 주석이 달린 지시사항으로 구성되며, 평균 1,723 단어(최대 15,630 단어)의 긴 지시사항과 평균 11.9개의 복잡한 제약 조건(도구 사양, 조건 제약 등)을 특징으로 합니다. AgentIF를 사용하여 기존의 최첨단 LLM들을 평가한 결과, 복잡한 제약 조건과 도구 사양 처리에서 LLM들의 성능이 저조함을 확인하였고, 지시사항 길이와 메타 제약 조건에 대한 오류 분석 및 분석 실험을 통해 LLM의 실패 모드에 대한 통찰을 제공합니다. 코드와 데이터를 공개하여 향후 연구를 지원합니다.

시사점, 한계점

시사점:
LLM 기반 에이전트의 지시사항 준수 능력에 대한 체계적인 평가를 위한 최초의 벤치마크 AgentIF를 제시.
실제 응용 사례를 기반으로 한 현실적인 장문의 지시사항과 복잡한 제약 조건을 포함하여 LLM의 한계를 명확히 밝힘.
LLM의 실패 모드에 대한 통찰을 제공하여 향후 연구 방향 제시.
공개된 데이터셋을 통해 후속 연구 활성화.
한계점:
AgentIF의 벤치마크 대상이 특정 영역의 에이전트 애플리케이션에 국한될 수 있음.
평가 지표의 다양성 확보 및 개선 필요성.
LLM의 성능 저하 원인에 대한 심층적인 분석이 부족할 수 있음.
👍