AI Act Evaluation Benchmark: An Open, Transparent, and Reproducible Evaluation Dataset for NLP and RAG Systems

Created by

Haebom

저자

Athanasios Davvetas, Michael Papademas, Xenia Ziouvelou, Vangelis Karkaletsis

💡 개요

유럽연합(EU) AI 법규 준수 평가의 필요성이 증가하고 있으나, 관련 자원 부족으로 자동화된 평가가 어려운 상황입니다. 본 연구는 EU AI 법규 준수 여부를 평가하기 위한 개방적이고 투명하며 재현 가능한 NLP 및 RAG 시스템 평가 데이터셋을 제안합니다. 이 데이터셋은 위험 수준 분류, 조항 검색, 의무 생성, 질의응답 등 다양한 과제를 포함하며, 대규모 언어 모델과 도메인 지식을 활용하여 구축되었습니다.

🔑 시사점 및 한계

•

EU AI 법규 준수 평가를 위한 자동화된 시스템 개발의 필요성을 충족시키는 자원 제공.

•

언어 모델을 활용하여 법규의 불명확한 부분을 포함한 다양한 시나리오를 생성하는 실용적인 방법론 제시.

•

본 데이터셋을 활용한 RAG 시스템 평가 결과, 금지된 및 고위험 시나리오에서 0.87 및 0.85의 F1 점수를 달성하여 효용성 입증.

•

EU AI 법규 자체에 명확히 정의되지 않은 위험 수준의 결정 경계를 다루는 데 있어, 제시된 방법론의 일반화 가능성 및 다양한 AI 법규로의 확장성 추가 연구 필요.

PDF 보기

Made with Slashpage