Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How Is LLM Reasoning Distracted by Irrelevant Context? An Analysis Using a Controlled Benchmark

Created by
  • Haebom

저자

Minglai Yang, Ethan Huang, Liang Zhang, Mihai Surdeanu, William Wang, Liangming Pan

개요

본 논문은 대규모 언어 모델(LLM)의 추론 견고성을 평가하기 위한 새로운 합성 벤치마크인 Grade School Math with Distracting Context (GSM-DC)를 제안합니다. GSM-DC는 체계적으로 제어된 무관한 맥락(IC)을 사용하여 기호 추론 그래프를 구성하고, 정밀한 방해 요소 주입을 통해 엄격하고 재현 가능한 평가를 가능하게 합니다. 실험 결과, LLM은 IC에 상당히 민감하며, 추론 경로 선택과 산술 정확도 모두에 영향을 미치는 것으로 나타났습니다. 또한, 강력한 방해 요소를 사용하여 모델을 훈련하면 분포 내 및 분포 외 시나리오 모두에서 성능이 향상됩니다. 마지막으로, 프로세스 보상 모델에 의해 안내되는 단계별 트리 검색 방법을 제안하여 분포 외 조건에서의 견고성을 향상시켰습니다.

시사점, 한계점

시사점:
LLM의 추론 견고성 평가를 위한 새로운 벤치마크 GSM-DC 제시.
LLM이 무관한 맥락에 매우 민감하며, 이는 추론 과정과 정확도에 영향을 미침을 실험적으로 증명.
강력한 방해 요소를 이용한 훈련이 LLM의 성능 향상에 효과적임을 보임.
제안된 단계별 트리 검색 방법이 분포 외 상황에서 LLM의 견고성을 향상시킴.
한계점:
GSM-DC 벤치마크의 일반화 가능성에 대한 추가 연구 필요.
제안된 방법의 다른 유형의 추론 문제나 더 복잡한 맥락에 대한 일반화 성능 평가 필요.
프로세스 보상 모델의 설계 및 최적화에 대한 추가적인 연구가 필요할 수 있음.
👍