Sign In

TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models

Created by
  • Haebom
Category
Empty

저자

Florian Tambon, Amin Nikanjam, Cyrine Zid, Foutse Khomh, Giuliano Antoniol

개요

본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력 평가를 위한 새로운 프레임워크인 TaskEval을 제시합니다. TaskEval은 다양한 프롬프트와 항목 반응 이론(IRT)을 활용하여 LLM의 능력과 과제 특성을 효율적으로 평가합니다. 기존 벤치마크 평가의 한계점인 과제 난이도 고려 부족 및 단일 프롬프트 사용 문제를 해결하고자, HumanEval+와 ClassEval 벤치마크, 5개의 코드 생성 LLM을 사용하여 TaskEval의 성능을 검증합니다. 주제 분석을 통해 각 벤치마크 내 과제의 주제를 도출하고, LLM이 사용하는 프로그래밍 구성 요소와 과제 난이도 간의 상관관계를 분석합니다. 나아가, 인간 평가자와 LLM 간의 과제 난이도 평가 비교를 수행하여 LLM 평가의 개선 방향을 제시합니다.

시사점, 한계점

시사점:
다양한 프롬프트와 IRT를 활용하여 LLM의 코드 생성 능력을 더욱 정확하게 평가할 수 있는 새로운 프레임워크 TaskEval을 제시.
기존 벤치마크의 한계점을 보완하고, 과제 특성 분석을 통해 LLM 성능 향상 및 벤치마크 개선에 기여.
과제 난이도와 프로그래밍 구성 요소 간의 상관관계 분석을 통해 LLM의 강점과 약점을 파악하는 데 도움.
인간 평가자와 LLM 간의 과제 난이도 평가 비교를 통해 LLM 평가의 신뢰성 향상에 기여.
한계점:
TaskEval의 성능 검증에 사용된 LLM의 종류 및 벤치마크의 범위가 제한적일 수 있음.
주제 분석 및 과제 특성 분석의 객관성 및 일반화 가능성에 대한 추가적인 검토 필요.
인간 평가자와 LLM 간의 과제 난이도 평가 차이에 대한 심층적인 분석 필요.
👍