[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models Aligned with Human Cognitive Principles

Created by
  • Haebom

저자

Devichand Budagam, Ashutosh Kumar, Mahsa Khoshnoodi, Sankalp KJ, Vinija Jain, Aman Chadha

개요

본 논문은 대규모 언어 모델(LLM)의 효과적인 평가를 위해 계층적 프롬프트 분류 체계(HPT)를 제시한다. HPT는 인간의 인지 원리를 기반으로 하며, 다양한 작업의 인지적 요구 사항을 검토하여 LLM을 평가한다. 계층적 프롬프트 프레임워크(HPF)를 활용하여 인지적 요구 수준에 따라 5가지 고유한 프롬프트 전략을 계층적으로 구성하고, 계층적 프롬프트 지수(HPI)를 통해 작업의 복잡성과 LLM의 인지 능력을 평가한다. 다양한 데이터셋과 LLM을 사용한 실험 결과, HPF는 기준 성능 대비 2%~63%의 성능 향상을 보였으며, GSM8k가 가장 인지적으로 복잡한 작업으로 평균 HPI 3.20을 기록했다. HPT와 HPF의 구현은 공개되어 향후 연구와 재현성을 지원한다.

시사점, 한계점

시사점:
LLM의 성능 평가를 위한 새로운 표준 지표(HPI) 제공
LLM의 인지 능력과 데이터셋의 복잡성을 종합적으로 평가 가능
HPF를 통해 LLM의 성능 향상 가능성 제시 (2%~63%)
다양한 데이터셋과 LLM에 대한 실험 결과를 통해 HPT의 유효성 검증
코드 공개를 통한 연구의 재현성 확보 및 향후 연구 지원
한계점:
HPI의 절대적인 척도에 대한 추가적인 검증 필요
제시된 5가지 프롬프트 전략 외 다른 전략의 효과성 검토 필요
특정 데이터셋 및 LLM에 편향된 결과 가능성 고려
인간의 인지 원리에 대한 일반화 가능성에 대한 추가 연구 필요
👍