Sign In

Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners

Created by
  • Haebom
Category
Empty

μ €μž

Charlotte Li, Nick Hagar, Sachita Nishal, Jeremy Gilbert, Nick Diakopoulos

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” ν˜„μž¬ μƒμ„±ν˜• AI λ²€μΉ˜λ§ˆν¬κ°€ μ‹€μ œ μ‚¬μš© μ‚¬λ‘€λ‚˜ μΈ‘μ •ν•˜λ €λŠ” κ°œλ…μ„ μ œλŒ€λ‘œ λ°˜μ˜ν•˜μ§€ λͺ»ν•œλ‹€λŠ” λΉ„νŒμ— 따라, HCI 접근법을 μ°¨μš©ν•˜μ—¬ μ €λ„λ¦¬μ¦˜ λΆ„μ•Όμ—μ„œ μ‚¬μš©μž μ€‘μ‹¬μ˜ 평가 방법둠을 μ œμ•ˆν•©λ‹ˆλ‹€. 23λͺ…μ˜ μ €λ„λ¦¬μ¦˜ μ „λ¬Έκ°€μ™€μ˜ μ›Œν¬μˆμ„ 톡해 도메인 μ€‘μ‹¬μ˜ 평가 "λ ˆμ‹œν”Ό 뢁"을 μ„€κ³„ν–ˆμœΌλ©°, 이λ₯Ό 톡해 μ‹€μ œ ν˜„μž₯의 λ¬Έμ œμ μ„ νŒŒμ•…ν•˜κ³  평가 섀계에 λŒ€ν•œ ꡬ체적인 μš”κ΅¬μ‚¬ν•­μ„ λ„μΆœν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ €λ„λ¦¬μ¦˜ λΆ„μ•Όμ˜ 전문가듀이 μ§λ©΄ν•˜λŠ” μ‹€μ œμ μ΄κ³  λ§₯λ½ν™”λœ AI ν‰κ°€μ˜ ν•„μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
AI 평가 섀계 μ‹œ 도메인 νŠΉν™” κ°€μΉ˜μ™€ λ‹€μ–‘ν•œ μ΄ν•΄κ΄€κ³„μžμ˜ μš”κ΅¬λ₯Ό κ· ν˜• 있게 κ³ λ €ν•΄μ•Ό 함을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
평가 κ²°κ³Όλ₯Ό 전문가듀이 μ΄ν•΄ν•˜κ³  ν™œμš©ν•  수 μžˆλ„λ‘ 평가 λ¦¬ν„°λŸ¬μ‹œλ₯Ό ν–₯μƒμ‹œν‚€λŠ” λ°©μ•ˆμ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 평가 방법둠은 μ €λ„λ¦¬μ¦˜μ΄λΌλŠ” νŠΉμ • 도메인에 κ΅­ν•œλ˜μ–΄ μžˆμ–΄, λ‹€λ₯Έ λ„λ©”μΈμœΌλ‘œμ˜ ν™•μž₯ 및 μΌλ°˜ν™” κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘