EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Created by

Haebom

저자

Aman Sharma, Paras Chopra

💡 개요

기존 코드 생성 벤치마크에서 높은 성능을 보이는 대규모 언어 모델(LLM)이 실제 추론 능력보다는 암기 능력에 의존한다는 문제점을 제기합니다. 이를 해결하기 위해, 본 연구는 훈련 데이터 오염 가능성이 낮고 실제 프로그래밍과 동일한 계산 원리를 요구하지만 경제적 비합리성으로 인해 사전 훈련에서의 이점(benchmark gaming)이 적은 5가지 난해 프로그래밍 언어(Brainfuck, Befunge-98, Whitespace, Unlambda, Shakespeare)를 활용한 EsoLang-Bench라는 새로운 벤치마크를 제안합니다.

🔑 시사점 및 한계

•

기존 LLM은 표준 벤치마크에서 보이는 높은 성능과 달리, 난해 프로그래밍 언어 기반의 벤치마크에서는 현저히 낮은 추론 능력을 보이며, 이는 모델의 암기 능력에 대한 의존성을 시사합니다.

•

Few-shot learning 및 self-reflection과 같은 일반적인 성능 향상 기법들이 난해 언어 과제에서는 효과를 보이지 않았는데, 이는 이러한 기법들이 실제 학습보다는 사전 훈련된 지식에 의존함을 나타냅니다.

•

EsoLang-Bench는 문서 학습, 인터프리터 피드백, 반복 실험 등 인간의 학습 방식을 모방하여 새로운 언어 습득 및 전이 가능한 추론 능력을 측정하는 최초의 벤치마크를 제공합니다.

PDF 보기

Made with Slashpage