Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability

Created by
  • Haebom

저자

Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

개요

본 논문은 CommonGen과 같은 생성적 상식 추론 작업에서, 지시 사항에 명시된 순서대로 개념을 생성하는 대형 언어 모델(LLM)의 능력을 평가하기 위한 새로운 벤치마크인 Ordered CommonGen을 제안합니다. Ordered CommonGen은 지시 사항 준수 능력과 구성적 일반화 능력을 동시에 평가하며, 특히 개념의 순서를 준수하는 정도를 측정하는 'ordered coverage' 지표를 사용합니다. 36개의 LLM을 사용한 실험 결과, LLM들이 지시 사항의 의도를 이해하지만 특정 개념 순서 패턴에 대한 편향으로 인해 다양성이 낮거나 개념 순서가 바뀌어도 동일한 결과를 생성하는 경향이 있음을 밝혔습니다. 최고 성능의 LLM조차 약 75%의 ordered coverage만 달성하여, 지시 사항 준수 및 구성적 일반화 능력 향상의 필요성을 보여줍니다.

시사점, 한계점

시사점:
Ordered CommonGen은 LLM의 지시 사항 준수 능력과 구성적 일반화 능력을 동시에 평가할 수 있는 새로운 벤치마크를 제공합니다.
LLM의 지시 사항 준수 능력과 구성적 일반화 능력에 대한 한계를 명확히 제시합니다.
LLM의 개념 순서 생성에 대한 편향성을 밝혀 향후 연구 방향을 제시합니다.
한계점:
Ordered CommonGen 벤치마크 자체의 일반화 가능성에 대한 추가적인 검증이 필요합니다.
75%라는 ordered coverage 수치가 LLM의 절대적인 한계를 의미하는지, 또는 벤치마크 설계의 영향인지 추가 분석이 필요합니다.
다양한 유형의 지시 사항과 개념에 대한 일반화 성능 평가가 추가적으로 필요합니다.
👍