Sign In

AI Act Evaluation Benchmark: An Open, Transparent, and Reproducible Evaluation Dataset for NLP and RAG Systems

Created by
  • Haebom
Category
Empty

μ €μž

Athanasios Davvetas, Michael Papademas, Xenia Ziouvelou, Vangelis Karkaletsis

πŸ’‘ κ°œμš”

μœ λŸ½μ—°ν•©(EU) AI λ²•κ·œ μ€€μˆ˜ ν‰κ°€μ˜ ν•„μš”μ„±μ΄ μ¦κ°€ν•˜κ³  μžˆμœΌλ‚˜, κ΄€λ ¨ μžμ› λΆ€μ‘±μœΌλ‘œ μžλ™ν™”λœ 평가가 μ–΄λ €μš΄ μƒν™©μž…λ‹ˆλ‹€. λ³Έ μ—°κ΅¬λŠ” EU AI λ²•κ·œ μ€€μˆ˜ μ—¬λΆ€λ₯Ό ν‰κ°€ν•˜κΈ° μœ„ν•œ 개방적이고 투λͺ…ν•˜λ©° μž¬ν˜„ κ°€λŠ₯ν•œ NLP 및 RAG μ‹œμŠ€ν…œ 평가 데이터셋을 μ œμ•ˆν•©λ‹ˆλ‹€. 이 데이터셋은 μœ„ν—˜ μˆ˜μ€€ λΆ„λ₯˜, μ‘°ν•­ 검색, 의무 생성, μ§ˆμ˜μ‘λ‹΅ λ“± λ‹€μ–‘ν•œ 과제λ₯Ό ν¬ν•¨ν•˜λ©°, λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈκ³Ό 도메인 지식을 ν™œμš©ν•˜μ—¬ κ΅¬μΆ•λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
EU AI λ²•κ·œ μ€€μˆ˜ 평가λ₯Ό μœ„ν•œ μžλ™ν™”λœ μ‹œμŠ€ν…œ 개발의 ν•„μš”μ„±μ„ μΆ©μ‘±μ‹œν‚€λŠ” μžμ› 제곡.
β€’
μ–Έμ–΄ λͺ¨λΈμ„ ν™œμš©ν•˜μ—¬ λ²•κ·œμ˜ 뢈λͺ…ν™•ν•œ 뢀뢄을 ν¬ν•¨ν•œ λ‹€μ–‘ν•œ μ‹œλ‚˜λ¦¬μ˜€λ₯Ό μƒμ„±ν•˜λŠ” μ‹€μš©μ μΈ 방법둠 μ œμ‹œ.
β€’
λ³Έ 데이터셋을 ν™œμš©ν•œ RAG μ‹œμŠ€ν…œ 평가 κ²°κ³Ό, κΈˆμ§€λœ 및 κ³ μœ„ν—˜ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œ 0.87 및 0.85의 F1 점수λ₯Ό λ‹¬μ„±ν•˜μ—¬ νš¨μš©μ„± μž…μ¦.
β€’
EU AI λ²•κ·œ μžμ²΄μ— λͺ…ν™•νžˆ μ •μ˜λ˜μ§€ μ•Šμ€ μœ„ν—˜ μˆ˜μ€€μ˜ κ²°μ • 경계λ₯Ό λ‹€λ£¨λŠ” 데 μžˆμ–΄, μ œμ‹œλœ λ°©λ²•λ‘ μ˜ μΌλ°˜ν™” κ°€λŠ₯μ„± 및 λ‹€μ–‘ν•œ AI λ²•κ·œλ‘œμ˜ ν™•μž₯μ„± μΆ”κ°€ 연ꡬ ν•„μš”.
πŸ‘