Sign In

Towards Reliable LLM Evaluation: Correcting the Winner's Curse in Adaptive Benchmarking

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yang Xu, Jiefu Zhang, Haixiang Sun, Zihan Zhou, Tianyu Cao, Vaneet Aggarwal

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) ν‰κ°€μ—μ„œ μ μ‘ν˜• ν”„λ‘¬ν”„νŠΈ 및 ν”„λ‘œκ·Έλž¨ 검색은 평가 κ²°κ³Όκ°€ 선택 과정에 λ―Όκ°ν•˜κ²Œ λ°˜μ‘ν•˜λŠ” '승자의 μ €μ£Ό' 문제λ₯Ό μ•ΌκΈ°ν•©λ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, 검색 ν›„ 후보ꡰ을 κ³ μ •ν•˜κ³  ν•™μŠ΅ 데이터와 평가 데이터λ₯Ό λΆ„λ¦¬ν•˜λ©°, λΆ€νŠΈμŠ€νŠΈλž© 기법을 ν™œμš©ν•˜λŠ” SIRENμ΄λΌλŠ” μƒˆλ‘œμš΄ 평가 ν”„λ‘œν† μ½œμ„ μ œμ•ˆν•©λ‹ˆλ‹€. SIREN은 μœ ν•œν•œ μ˜ˆμ‚° λ‚΄μ—μ„œ LLM의 μ‹€μ œ μ„±λŠ₯을 더 μ •ν™•ν•˜κ²Œ μΆ”μ •ν•˜κ³ , λ‹€μ–‘ν•œ 비ꡐ 뢄석을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM ν‰κ°€μ—μ„œ μ μ‘ν˜• 검색 μ‹œ λ°œμƒν•˜λŠ” 편ν–₯된 κ²°κ³Ό(승자의 μ €μ£Ό)λ₯Ό λͺ…ν™•νžˆ 규λͺ…ν•˜κ³ , 이λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•œ μ‹€μ§ˆμ μΈ 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ SIREN ν”„λ‘œν† μ½œμ€ LLM의 μ‹€μ œ μ„±λŠ₯을 더 μ‹ λ’°μ„± 있게 μΈ‘μ •ν•˜λ©°, μœ ν•œν•œ μ˜ˆμ‚° μ œμ•½ ν•˜μ—μ„œλ„ μœ νš¨ν•œ 좔둠을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
SIREN은 LLM의 μ„±λŠ₯ 비ꡐ 및 배포 결정에 λŒ€ν•œ 더 μ •ν™•ν•˜κ³  μΌκ΄€λœ 정보λ₯Ό μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ…Όλ¬Έμ—μ„œ μ œμ‹œλœ SIREN ν”„λ‘œν† μ½œμ€ νŠΉμ • μœ ν˜•μ˜ μ μ‘ν˜• 검색 및 νŠœλ‹ 방식에 μ΄ˆμ μ„ λ§žμΆ”κ³  있으며, ν–₯ν›„ 더 λ‹€μ–‘ν•œ LLM 평가 μ‹œλ‚˜λ¦¬μ˜€ 및 λ³΅μž‘ν•œ νŠœλ‹ 과정에 λŒ€ν•œ ν™•μž₯ 및 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘