MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs
Created by
Haebom
Category
Empty
저자
Ved Sirdeshmukh, Kaustubh Deshpande, Johannes Mols, Lifeng Jin, Ed-Yeremai Cardona, Dean Lee, Jeremy Kritz, Willow Primack, Summer Yue, Chen Xing
개요
본 논문은 대규모 언어 모델(LLM)의 인간 사용자와의 다회차 대화 능력을 평가하는 획기적인 벤치마크인 MultiChallenge를 제시합니다. MultiChallenge는 현재 인간-LLM 상호작용에서 일반적이고 현실적일 뿐만 아니라 모든 최첨단 LLM에 어려운 다회차 대화의 네 가지 범주를 식별합니다. 네 가지 과제 모두 정확한 지시사항 따르기, 문맥 할당 및 문맥 내 추론을 동시에 요구합니다. 또한, 경험이 풍부한 인간 평가자와 공정한 일치를 달성하기 위한 자동 평가 방법을 용이하게 하기 위해 인스턴스 수준의 등급 기준을 사용하여 LLM을 심사관으로 개발했습니다. 기존 다회차 평가 벤치마크에서 거의 완벽한 점수를 달성했음에도 불구하고, 모든 최첨단 모델은 MultiChallenge에서 50% 미만의 정확도를 보였으며, 최고 성능을 보인 Claude 3.5 Sonnet (2024년 6월)조차 평균 정확도가 41.4%에 불과했습니다.
시사점, 한계점
•
시사점: 기존 벤치마크로는 포착하지 못하는 다회차 대화에서의 LLM의 실질적인 한계를 드러냄으로써, LLM의 발전 방향을 제시합니다. 자동 평가 방법을 제시하여 효율적인 LLM 평가를 가능하게 합니다.
•
한계점: MultiChallenge가 제시하는 네 가지 과제의 범주가 모든 다회차 대화의 어려움을 완벽하게 포괄하는지는 추가 연구가 필요합니다. 현재 최고 성능 모델의 정확도가 낮다는 점은 MultiChallenge의 난이도가 높다는 것을 시사하지만, 과제 설계의 편향 가능성도 고려해야 합니다. LLM을 심사관으로 사용하는 자동 평가 방법의 신뢰성에 대한 추가적인 검증이 필요합니다.