Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Structured Prompting Enables More Robust, Holistic Evaluation of Language Models

Created by
  • Haebom
Category
Empty

저자

Asad Aali, Muhammad Ahmed Mohsin, Vasiliki Bikia, Arnav Singhvi, Richard Gaus, Suhana Bedi, Hejie Cui, Miguel Fuentes, Alyssa Unell, Yifan Mai, Jordan Cahoon, Michael Pfeffer, Roxana Daneshjou, Sanmi Koyejo, Emily Alsentzer, Percy Liang, Christopher Potts, Nigam H. Shah, Akshay S. Chaudhari

개요

본 논문은 언어 모델(LM)의 성능을 정확하게 평가하기 위한 새로운 벤치마킹 프레임워크를 제시합니다. 기존 벤치마킹 프레임워크인 HELM이 고정된 프롬프트를 사용하여 LM의 성능을 과소평가할 수 있다는 점을 지적하고, 구조화된 프롬프트를 활용하는 DSPy 프레임워크를 HELM에 통합하여 보다 정확한 성능 평가를 가능하게 합니다. 4가지 프롬프팅 방법을 사용하여 4개의 최첨단 LM을 7개의 벤치마크 (일반/의료 도메인)에 대해 평가한 결과, 구조화된 프롬프팅을 사용하지 않을 경우 HELM이 LM의 성능을 평균 4% 과소평가하고, 벤치마크 간 성능 추정치의 변동이 더 크며, 성능 격차가 잘못 표현될 수 있다는 것을 발견했습니다. 또한, 추론(chain-of-thought)을 도입하면 LM이 프롬프트 디자인에 덜 민감해진다는 것을 확인했습니다. 본 연구는 DSPy+HELM 통합 및 프롬프트 최적화 파이프라인을 오픈 소스로 제공합니다.

시사점, 한계점

시사점:
HELM과 같은 기존 벤치마크는 고정된 프롬프트로 인해 LM의 실제 성능을 과소평가할 수 있습니다.
구조화된 프롬프팅 (DSPy)을 사용하면 LM의 성능을 보다 정확하게 평가할 수 있습니다.
추론(chain-of-thought)을 도입하면 LM의 프롬프트 민감도를 줄일 수 있습니다.
본 연구는 LM 동작을 벤치마크 및 프롬프팅 방법 전반에 걸쳐 경험적으로 특성화한 최초의 대규모 벤치마킹 연구입니다.
확장 가능한 성능 상한선 추정을 통해 의사 결정에 유용한 벤치마크를 개발할 수 있습니다.
한계점:
구체적인 한계점은 논문 내용에 명시되어 있지 않음. (논문 요약본에서 확인 불가)
👍