# Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets

### 저자

Masumi Morishige, Ryo Koshihara

### 개요

본 논문은 생성형 AI 시스템의 재현성 및 신뢰성 문제를 해결하기 위해 경량의 확장 가능한 벤치마크인 GPR-bench를 제시합니다. GPR-bench는 영어와 일본어를 지원하는 8가지 작업 카테고리(텍스트 생성, 코드 생성, 정보 검색 등)와 각 카테고리별 10가지 시나리오(각 언어당 총 80개의 테스트 케이스)를 포함하는 개방형 데이터셋과 "LLM-as-a-Judge" 방식의 자동 평가 파이프라인으로 구성됩니다.  gpt-4o-mini, o3-mini, o4-mini 세 가지 모델 버전과 두 가지 프롬프트 설정(기본 설정 및 간결한 작성 지시)을 이용한 실험 결과, 새로운 모델이 정확성을 개선하지만 그 차이는 미미하고 통계적으로 유의미하지 않다는 것을 보여줍니다. 반면, 간결한 작성 지시는 정확성 저하를 최소화하면서 간결성을 크게 향상시켰습니다. MIT 라이선스로 공개된 GPR-bench는 재현성 모니터링을 위한 진입 장벽을 낮추고, 빠르게 발전하는 언어 모델을 위한 벤치마크 설계에 대한 중요한 고려 사항을 제기합니다.

### 시사점, 한계점

- **시사점:**

    - GPR-bench는 생성형 AI 시스템의 재현성 및 신뢰성 모니터링을 위한 경량의 확장 가능한 벤치마크를 제공합니다.

    - 프롬프트 엔지니어링을 통해 생성 결과의 간결성을 크게 향상시킬 수 있음을 보여줍니다.

    - 다국어 지원으로 더욱 폭넓은 연구 및 개발을 가능하게 합니다.

    - 오픈소스로 공개되어 커뮤니티 기반 확장을 지원합니다.

- **한계점:**

    - 최신 모델 간의 성능 차이를 충분히 구분할 만큼 충분히 어려운 벤치마크가 아닐 수 있습니다.

    - 벤치마크 설계가 빠르게 발전하는 언어 모델에 적합한지에 대한 추가적인 고려가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2505.02854)

![https://i.imgur.com/dTrPKNC.jpeg](https://i.imgur.com/dTrPKNC.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).