Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Do Large Language Models Excel in Complex Logical Reasoning with Formal Language?

Created by
  • Haebom

저자

Jin Jiang, Jianing Wang, Yuchen Yan, Yang Liu, Jianhua Zhu, Mengdi Zhang, Xunliang Cai, Liangcai Gao

개요

본 논문은 다양한 논리 추론 문제에서 대규모 언어 모델(LLMs)의 성능을 포괄적으로 평가합니다. LLM의 스펙트럼, 과제의 분류, 그리고 추론 경로의 형식이라는 세 가지 측면에서 평가를 수행하여 다음과 같은 주요 결과를 도출했습니다. 1) 사고 모델(Thinking models)이 특히 형식 언어를 사용할 때 지시 모델(Instruct models)보다 성능이 훨씬 뛰어납니다. 2) 모든 LLM은 형식 언어 사용 여부와 관계없이 귀납적 추론 능력에 한계를 보입니다. 3) PoT 형식의 데이터가 다른 언어에 대한 가장 우수한 일반화 성능을 달성합니다. 또한, 형식 언어 관련 학습 데이터를 선별하여 소규모 언어 모델을 향상시켰으며, 간단한 거부 미세 조정(rejected fine-tuning) 방법이 LLM이 형식 언어 간에 일반화하고 전반적으로 최상의 성능을 달성하도록 하는 데 더 효과적임을 실험 결과를 통해 보여줍니다.

시사점, 한계점

시사점:
사고 모델이 형식 언어를 사용하는 논리 추론 과제에서 우수한 성능을 보임을 확인했습니다.
PoT 형식 데이터가 다양한 형식 언어에 대한 일반화 성능 향상에 효과적임을 제시했습니다.
거부 미세 조정 방법을 통해 소규모 LLM의 성능 향상 및 일반화 능력 개선 가능성을 보여주었습니다.
한계점:
모든 LLM이 귀납적 추론에 어려움을 겪는다는 점을 확인했지만, 이러한 한계를 극복하기 위한 구체적인 해결 방안은 제시하지 않았습니다.
평가에 사용된 논리 추론 문제의 종류와 범위가 제한적일 수 있습니다.
사용된 데이터셋과 모델의 특성에 따라 결과가 달라질 수 있으므로 일반화에 유의해야 합니다.
👍