Sign In

Towards Provably Unbiased LLM Judges via Bias-Bounded Evaluation

Created by
  • Haebom
Category
Empty

μ €μž

Benjamin Feuer, Lucas Rosenblatt, Oussama Elachqar

πŸ’‘ κ°œμš”

λ³Έ 논문은 자율적인 AI μ‹œμŠ€ν…œμ˜ ν”Όλ“œλ°± 루프에 ν•„μˆ˜μ μΈ LLM 기반 ν‰κ°€μž(judge)의 편ν–₯μ„± 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 연ꡬ진은 μΈ‘μ • κ°€λŠ₯ν•œ λͺ¨λ“  편ν–₯에 λŒ€ν•΄ LLM ν‰κ°€μžμ˜ ν•΄μ•…/영ν–₯을 ν˜•μ‹μ μœΌλ‘œ 보μž₯ν•˜λŠ” κ°μ†Œλ₯Ό μ œκ³΅ν•˜λŠ” '평균 편ν–₯ 경계(A-BB)'λΌλŠ” μ•Œκ³ λ¦¬μ¦˜ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. Arena-Hard-Auto 데이터셋을 μ‚¬μš©ν•˜μ—¬ λ„€ κ°€μ§€ LLM ν‰κ°€μžλ‘œ μ‹€ν—˜ν•œ κ²°κ³Ό, 61-99%의 원본 μˆœμœ„ 상관관계λ₯Ό μœ μ§€ν•˜λ©΄μ„œ (tau=0.5, delta=0.01) μˆ˜μ€€μ˜ 편ν–₯ 경계 보증을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM ν‰κ°€μžμ˜ 편ν–₯성을 μ •λŸ‰μ μœΌλ‘œ μ œμ–΄ν•˜κ³  보증할 수 μžˆλŠ” μƒˆλ‘œμš΄ μ•Œκ³ λ¦¬μ¦˜ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ LLM ν‰κ°€μžμ™€ 편ν–₯ μ„€μ •μ—μ„œ 높은 상관관계λ₯Ό μœ μ§€ν•˜λ©° 편ν–₯ κ°μ†Œ 효과λ₯Ό μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
아직 μ•Œλ €μ§€μ§€ μ•Šμ•˜κ±°λ‚˜ μ λŒ€μ μœΌλ‘œ 발견될 수 μžˆλŠ” λ³΅μž‘ν•œ 편ν–₯에 λŒ€ν•œ 보증은 더 심측적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘