Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

Revisiting Generalization Across Difficulty Levels: It's Not So Easy

Created by
  • Haebom
Category
Empty

저자

Yeganeh Kordi, Nihal V. Nayak, Max Zuo, Ilana Nguyen, Stephen H. Bach

개요

대규모 언어 모델(LLM)이 다양한 난이도의 작업에 얼마나 잘 일반화되는지 연구. 데이터 큐레이션 및 평가에 중요한 이 질문에 답하기 위해, 다양한 모델, 데이터셋, 예시 난이도 그룹에서 LLM의 일반화를 체계적으로 평가. Item Response Theory (IRT)를 사용하여 6개의 데이터셋에서 예시 난이도를 평가하며, 이는 인간의 주관적인 평가를 배제하고 LLM의 출력만으로 결정됨. 연구 결과, 난이도에 따른 일반화는 제한적이며, 쉬운 데이터나 어려운 데이터만으로 훈련하는 것은 모든 난이도 범위에서 일관된 개선을 달성할 수 없음.

시사점, 한계점

시사점:
LLM의 훈련 및 평가 데이터 모두에서 다양한 난이도를 갖는 것이 중요함.
난이도에 대한 지름길은 위험할 수 있음.
한계점:
연구에서 사용된 LLM 및 데이터셋의 특정 범위로 제한될 수 있음.
IRT를 사용한 난이도 평가가 LLM 능력만을 기반으로 하지만, 완벽하게 객관적이지 않을 수 있음.
👍