# RDF-Based Structured Quality Assessment Representation of Multilingual LLM Evaluations

### 저자

Jonas Gwozdz, Andreas Both

### 개요

본 논문은 대규모 언어 모델(LLM)의 신뢰성 평가를 위한 RDF 기반 프레임워크를 제안합니다. 특히 상충되는 정보에 대한 LLM의 반응을 다국어(독일어, 영어) 환경에서 분석하는 데 초점을 맞춥니다. 완전, 불완전, 상충, 무정보 등 네 가지 맥락 조건에서 모델의 응답을 수집하고, 이를 구조화된 RDF 형태로 표현하여 지식 유출(훈련 데이터에 대한 과도한 의존), 오류 탐지, 다국어 일관성 등을 종합적으로 분석합니다. 소방 안전 분야를 대상으로 한 실험을 통해 맥락 우선순위 및 언어별 성능에 대한 중요한 패턴을 밝히고, 28개 질문 연구에서 모든 평가 측면을 표현하는 데 사용된 어휘가 충분함을 보여줍니다.

### 시사점, 한계점

- **시사점:**

    - 상충되는 정보 하에서의 LLM 신뢰성 평가를 위한 새로운 RDF 기반 프레임워크 제시

    - 다국어 환경에서 LLM의 지식 유출, 오류, 일관성 문제 분석 가능

    - 맥락 정보 처리 및 언어별 성능 차이에 대한 통찰 제공

    - 소방 안전 분야 실험을 통한 프레임워크의 실효성 검증

- **한계점:**

    - 소방 안전 분야에 국한된 실험으로 일반화 가능성 제한

    - 분석 대상 언어가 독일어와 영어로 제한됨

    - 사용된 어휘의 충분성 검증은 해당 연구의 범위 내에서만 유효

[PDF 보기](https://arxiv.org/pdf/2504.21605)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
