Sign In

StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs

Created by
  • Haebom
Category
Empty

저자

Jialin Yang, Dongfu Jiang, Lipeng He, Sherman Siu, Yuxuan Zhang, Disen Liao, Zhuofeng Li, Huaye Zeng, Yiming Jia, Haozhe Wang, Benjamin Schneider, Chi Ruan, Wentao Ma, Zhiheng Lyu, Yifei Wang, Yi Lu, Quy Duc Do, Ziyan Jiang, Ping Nie, Wenhu Chen

개요

본 논문은 대규모 언어 모델(LLM)의 구조화된 출력 생성 능력을 평가하기 위한 종합적인 벤치마크인 StructEval을 제시합니다. StructEval은 JSON, YAML, CSV와 같은 렌더링 불가능한 형식과 HTML, React, SVG와 같은 렌더링 가능한 형식을 포함한 18가지 형식에 걸쳐 구조적 정확성을 체계적으로 평가합니다. 자연어 프롬프트로부터 구조화된 출력을 생성하는 생성 작업과 구조화된 형식 간의 변환 작업이라는 두 가지 패러다임을 통해 평가합니다. 형식 준수 및 구조적 정확성을 위한 새로운 지표를 사용하며, 최첨단 모델조차도 상당한 성능 격차를 보임을 밝힙니다. (예: o1-mini는 평균 75.58점 달성, 오픈소스 모델은 약 10점 뒤처짐). 생성 작업이 변환 작업보다 어렵고, 시각적 콘텐츠 생성이 텍스트 기반 구조 생성보다 더 어려운 것으로 나타났습니다.

시사점, 한계점

시사점:
LLM의 구조화된 데이터 생성 능력에 대한 종합적이고 체계적인 평가 기준을 제공합니다.
다양한 형식과 작업 유형을 포괄하여 LLM의 성능을 포괄적으로 평가합니다.
LLM의 성능 격차와 개선 방향을 제시합니다. (생성 작업의 어려움, 시각적 콘텐츠 생성의 어려움 등)
향후 LLM 개발 및 구조화된 데이터 생성 연구에 중요한 기준을 제시합니다.
한계점:
현재 벤치마크에 포함된 형식과 작업의 종류가 제한적일 수 있습니다. (향후 더 많은 형식과 작업 추가 필요)
평가 지표의 객관성과 신뢰성에 대한 추가 검증이 필요할 수 있습니다.
특정 모델이나 형식에 대한 편향이 존재할 가능성이 있습니다.
실제 응용 환경에서의 성능과의 차이에 대한 고려가 필요합니다.
👍