Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ANPMI: Assessing the True Comprehension Capabilities of LLMs for Multiple Choice Questions

Created by
  • Haebom
Category
Empty

저자

Gyeongje Cho, Yeonkyoung So, Jaejin Lee

개요

본 논문은 다중 선택형 벤치마크를 사용한 언어 모델의 자연어 이해 능력 평가의 한계점을 지적하고, 이를 개선하기 위한 새로운 지표 ANPMI를 제안합니다. 기존의 $P(Choice|Prompt)$ 방식은 모델의 이해 능력뿐 아니라 특정 선택지에 대한 고유한 편향도 반영하여 정확한 평가를 어렵게 만든다는 문제점을 제기합니다. ANPMI는 Pointwise Mutual Information (PMI)를 $-\log P(Choice)$로 정규화하여, 프롬프트를 제대로 이해하지 않고 답을 맞히는 것을 어렵게 함으로써 모델의 자연어 이해 능력을 더 정확하게 평가할 수 있도록 설계되었습니다.

시사점, 한계점

시사점: ANPMI는 기존의 다중 선택형 벤치마크 평가 방식의 한계를 극복하고, 언어 모델의 자연어 이해 능력을 더 정확하게 측정할 수 있는 새로운 지표를 제시합니다. 모델의 편향을 줄이고 실제 이해 능력을 더 잘 반영하는 평가가 가능해집니다.
한계점: ANPMI의 성능과 유용성은 실제 다양한 언어 모델과 벤치마크에 대한 실험적 검증을 통해 추가적으로 확인되어야 합니다. 새로운 지표의 계산 복잡도 및 효율성에 대한 분석도 필요합니다. 또한, $-\log P(Choice)$로 정규화하는 방식이 모든 경우에 최적의 정규화 방법인지에 대한 추가적인 연구가 필요합니다.
👍