Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SLR: Automated Synthesis for Scalable Logical Reasoning

Created by
  • Haebom

저자

Lukas Helff, Ahmad Omar, Felix Friedrich, Antonia Wust, Hikaru Shindo, Rupert Mitchell, Tim Woydt, Patrick Schramowski, Wolfgang Stammer, Kristian Kersting

개요

본 논문은 대규모 언어 모델(LLM)의 체계적인 평가 및 훈련을 위한 종단 간 프레임워크인 SLR(Scalable Logical Reasoning)을 제시합니다. SLR은 사용자의 작업 명세를 바탕으로, (i) 귀납적 추론 작업을 위한 지시 프롬프트, (ii) 모델 출력에 실행 가능한 검증 프로그램(검증 가능한 보상 제공), (iii) 잠재적 기저 진실 규칙을 자동으로 생성합니다. 이 과정은 완전 자동화되고 확장 가능하며, 사람의 주석이 필요 없고 작업 난이도를 정밀하게 제어할 수 있습니다. 논문에서는 SLR을 사용하여 관계, 산술, 재귀적 복잡성이 점진적으로 증가하는 20개의 커리큘럼 수준으로 구성된 19,000개의 프롬프트로 이루어진 벤치마크인 SLR-Bench를 생성했습니다. 대규모 평가 결과, 최신 LLM은 구문적으로 유효한 규칙을 쉽게 생성하지만, 정확한 논리적 추론에는 종종 실패하는 것으로 나타났습니다. 최근 추론 LLM은 성능이 향상되었지만, 1,000개의 프롬프트에 대해 300달러가 넘는 매우 높은 테스트 시간 계산 비용이 발생합니다. 마지막으로, SLR을 통한 커리큘럼 학습은 Llama-3-8B의 SLR-Bench 정확도를 두 배로 높여, 훨씬 적은 계산 비용으로 Gemini-Flash-Thinking과 동등한 수준에 도달했습니다. 또한, 이러한 추론 능력은 다양한 기존 벤치마크로 일반화되어, 하류 추론을 위한 SLR의 효과를 강조합니다.

시사점, 한계점

시사점:
LLM의 논리적 추론 능력 평가 및 향상을 위한 효율적이고 확장 가능한 프레임워크인 SLR 제시.
사람의 개입 없이 자동으로 프롬프트, 검증 프로그램, 기저 진실 규칙을 생성하는 자동화된 시스템 구축.
커리큘럼 학습을 통해 LLM의 추론 능력을 크게 향상시킬 수 있음을 실증.
SLR-Bench라는 새로운 대규모 벤치마크를 제공하여 LLM의 추론 능력을 객관적으로 평가할 수 있는 기준 마련.
적은 비용으로 기존 최고 성능 모델과 유사한 성능을 달성 가능.
향상된 추론 능력이 다양한 벤치마크에서 일반화됨을 확인.
한계점:
현재 SLR-Bench는 특정 유형의 논리적 추론 문제에 집중되어 있어, 다양한 유형의 추론 문제에 대한 일반화 성능은 추가 연구가 필요.
고성능 LLM의 테스트 시간 계산 비용이 여전히 높다는 점은 향후 개선이 필요한 부분.
SLR의 성능이 특정 LLM 아키텍처에 의존할 가능성이 있으므로, 다양한 아키텍처에 대한 추가적인 실험이 필요.
👍