Sign In

RIFT: A RubrIc Failure Mode Taxonomy and Automated Diagnostics

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhengyang Qi, Charles Dickens, Derek Pham, Amanda Dsouza, Armin Parchami, Frederic Sala, Paroma Varma

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 개방적이고 κ²€μ¦ν•˜κΈ° μ–΄λ €μš΄ μž‘μ—… 평가에 널리 μ‚¬μš©λ˜λŠ” 루브릭(rubric)의 μ‹€νŒ¨ λͺ¨λ“œλ₯Ό μ²΄κ³„μ μœΌλ‘œ λΆ„μ„ν•˜κΈ° μœ„ν•œ RIFT(RubrIc Failure mode Taxonomy)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. RIFTλŠ” μ‹ λ’°μ„±, λ‚΄μš© 타당성, κ²°κ³Ό νƒ€λ‹Ήμ„±μ˜ μ„Έ κ°€μ§€ μƒμœ„ λ²”μ£Όλ‘œ κ΅¬μ„±λœ 8κ°€μ§€ μ‹€νŒ¨ λͺ¨λ“œλ₯Ό ν¬ν•¨ν•˜λ©°, 인간 μ£Όμ„μžμ˜ 높은 일관성을 ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, 루브릭 ν’ˆμ§ˆμ„ μžλ™μœΌλ‘œ μ§„λ‹¨ν•˜λŠ” μ§€ν‘œλ₯Ό κ°œλ°œν•˜μ—¬ 인간 평가와 높은 상관성을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
루브릭 섀계 및 ꡬ성 μ‹€νŒ¨ λͺ¨λ“œλ₯Ό μ²΄κ³„μ μœΌλ‘œ λΆ„λ₯˜ν•¨μœΌλ‘œμ¨ LLM ν‰κ°€μ˜ μ‹ λ’°μ„±κ³Ό 타당성을 λ†’μ΄λŠ” κΈ°λ°˜μ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μžλ™ν™”λœ 루브릭 ν’ˆμ§ˆ 진단 μ§€ν‘œλŠ” λŒ€κ·œλͺ¨ LLM ν‰κ°€μ—μ„œ 루브릭의 νš¨κ³Όμ„±μ„ μ‹ μ†ν•˜κ³  ν™•μž₯ κ°€λŠ₯ν•˜κ²Œ μΈ‘μ •ν•˜λŠ” 데 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ‹œλœ RIFT λΆ„λ₯˜ μ²΄κ³„μ˜ λͺ¨λ“  μ‹€νŒ¨ λͺ¨λ“œλ₯Ό ν¬κ΄„ν•˜λŠ”μ§€, 그리고 λ‹€μ–‘ν•œ 도메인 및 μž‘μ—…μ— λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯성은 μΆ”κ°€ 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘