Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating LLM-Generated Versus Human-Authored Responses in Role-Play Dialogues

Created by
  • Haebom

저자

Dongxu Lu, Johan Jeuring, Albert Gatt

개요

대규모 언어 모델(LLM)의 장문, 지식 기반 역할극 대화 평가의 어려움을 해결하기 위해, 본 연구는 다중 턴 전문 교육 시뮬레이션에서 LLM 생성 응답과 인간 작성 응답을 비교했습니다. 인적 평가(N=38)와 자동화된 LLM-as-a-judge 평가를 통해, LLM 생성 응답의 품질이 턴이 지날수록 자연스러움, 맥락 유지, 전반적인 품질 측면에서 유의미하게 저하되는 것을 확인했습니다. 반면, 인간 작성 응답은 점차 개선되었습니다. 인적 평가 결과는 Gemini 2.0 Flash가 제로샷 쌍별 선호도 및 확률적 6샷 구성 요소 평가 모두에서 인간 평가자와 강력한 일치를 보이는 자동화된 LLM-as-a-judge 평가에 의해 검증되었습니다. 본 연구는 지식 기반 역할극 대화에서 LLM 저하를 드러내는 다중 턴 벤치마크를 제공하고, 교육 시뮬레이션에서 LLM의 신뢰할 수 있는 통합을 위한 검증된 하이브리드 평가 프레임워크를 제시합니다.

시사점, 한계점

LLM 생성 응답의 품질이 다중 턴 대화에서 시간이 지남에 따라 저하됨
인간 작성 응답은 시간이 지남에 따라 개선됨
Gemini 2.0 Flash를 활용한 자동화된 LLM-as-a-judge 평가가 인간 평가와 일치하는 결과를 보임
LLM 기반 훈련 시뮬레이션 도입 시 품질 저하에 대한 고려 필요
연구는 특정 LLM(Gemini 2.0 Flash)에 대한 평가 결과를 제시하며, 다른 LLM의 성능은 다를 수 있음
평가 대상 시뮬레이션 및 평가 기준의 일반화 가능성에 대한 추가 연구 필요
👍