Code Simulation as a Proxy for High-order Tasks in Large Language Models
Created by
Haebom
저자
Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin, X. Angelo Huang, Samuele Marro, Anthony Cohn, Nigel Shadbolt, Michael Wooldridge
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력을 평가하기 위해 자연어 추론 과제와 인공적으로 생성된 추론 과제를 함께 활용하는 연구를 제시한다. 자연어 추론 과제는 수작업으로 생성하는 데 어려움이 있으므로, 프로그래밍의 기본 구조(직선형 프로그램, 중요 경로를 포함하는 코드, 근사 및 중복 명령어 등)를 활용하여 대규모로 쉽게 생성할 수 있는 인공 데이터셋을 제작한다. 정렬 문제와 반복 연산을 통한 추가적인 인공 데이터셋을 활용하여 LLM의 능력을 평가하고, 가장 강력한 LLM조차도 기억 및 패턴 인식에 크게 의존하며, 추론 과정이 취약함을 보여준다. 본 연구는 수작업으로 주석이 달린 문제를 보완하는 확장 가능한 방법으로 LLM의 추론 능력을 인공적으로 테스트하는 데 기여한다.
시사점, 한계점
•
시사점:
◦
LLM의 추론 능력 평가를 위한 확장 가능한 인공 데이터셋 생성 방법 제시
◦
인공 데이터셋을 이용한 LLM 추론 능력 평가 결과 제시 (강력한 LLM도 기억 및 패턴 인식에 의존하며 취약함을 보임)