Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios

Created by
  • Haebom

저자

Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang

개요

본 논문은 대규모 언어 모델(LLM)의 복잡한 실제 세계 규칙 준수 능력을 평가하기 위해 설계된 새로운 벤치마크인 RuleArena를 소개합니다. 항공 수하물 요금, NBA 거래, 세금 규정 등 세 가지 실제 영역을 다루는 RuleArena는 긴 맥락 이해, 논리적 추론 및 정확한 수학적 계산을 요구하는 복잡한 자연어 지침을 처리하는 LLM의 능숙도를 평가합니다. RuleArena는 기존의 규칙 기반 추론 벤치마크와 달리 (1) 표준 1차 논리 표현을 넘어 확장되고 (2) 실제 시나리오를 기반으로 하여 실제 응용 프로그램에 대한 LLM의 적합성과 신뢰성에 대한 통찰력을 제공합니다. 연구 결과는 LLM의 몇 가지 주목할 만한 한계를 보여줍니다. (1) 적절한 규칙을 식별하고 적용하는 데 어려움을 겪고, 유사하지만 다른 규정에 혼란을 느끼는 경우가 많으며, (2) 관련 규칙을 올바르게 식별하더라도 일관되게 정확한 수학적 계산을 수행할 수 없으며, (3) 일반적으로 벤치마크에서 성능이 저조합니다. 또한 LLM에 오라클 수학 및 논리 연산을 위한 외부 도구를 제공할 때 성능이 크게 향상되는 것을 관찰했습니다. 이러한 결과는 실제 응용 프로그램에서 LLM의 규칙 기반 추론 기능을 발전시키는 데 있어 중요한 과제와 유망한 연구 방향을 강조합니다. 코드와 데이터는 https://github.com/skyriver-2000/RuleArena 에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점: 실제 세계 시나리오를 기반으로 LLM의 규칙 준수 능력을 평가하는 새로운 벤치마크인 RuleArena 제시. LLM의 규칙 기반 추론 능력 향상을 위한 중요한 과제 및 유망한 연구 방향 제시. 외부 도구(오라클 수학 및 논리 연산) 활용을 통한 LLM 성능 향상 가능성 확인. RuleArena의 코드와 데이터 공개를 통한 연구의 재현성 및 확장성 확보.
한계점: LLM이 유사하지만 다른 규정을 구분하는 데 어려움을 겪음. LLM이 관련 규칙을 올바르게 식별하더라도 정확한 수학적 계산을 일관되게 수행하지 못함. LLM이 RuleArena 벤치마크에서 전반적으로 저조한 성능을 보임.
👍