Sign In

QQJ: Quantifying Qualitative Judgment for Scalable and Human-Aligned Evaluation of Generative AI

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Marjan Veysi, Pirooz Shamsinejadbabaki, Mohammad Zare, Mohammad Sabouri

πŸ’‘ κ°œμš”

μƒμ„±ν˜• AI의 λΉ λ₯Έ λ°œμ „μ€ κ°œλ°©ν˜•, 창의적, 인간 λŒ€λ©΄ μž‘μ—…μ—μ„œ κΈ°μ‘΄ 평가 λ°©λ²•λ‘ μ˜ 근본적인 ν•œκ³„λ₯Ό λ“œλŸ¬λƒˆμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 μΈκ°„μ˜ νŒλ‹¨κ³Ό μžλ™ν™”λœ 평가 μ‚¬μ΄μ˜ 격차λ₯Ό λͺ…ν™•νžˆ ν•΄μ†Œν•˜λŠ” QQJ(Quantifying Qualitative Judgment)λΌλŠ” ν™•μž₯ κ°€λŠ₯ν•˜κ³  인간 쀑심적인 평가 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. QQJλŠ” μ „λ¬Έκ°€κ°€ μ„€κ³„ν•œ 닀차원 λ£¨λΈŒλ¦­μ— 평가λ₯Ό κ³ μ •ν•˜κ³  μ†ŒλŸ‰μ˜ κ³ ν’ˆμ§ˆ 주석 μ„ΈνŠΈλ₯Ό μ‚¬μš©ν•˜μ—¬ LLM ν‰κ°€μžλ₯Ό μ „λ¬Έκ°€μ˜ 좔둠에 맞좰 μ‘°μ •ν•¨μœΌλ‘œμ¨ ν’ˆμ§ˆ μ •μ˜μ™€ 싀행을 λΆ„λ¦¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν™•μž₯ κ°€λŠ₯ν•˜κ³  인간 쀑심적인 평가: QQJλŠ” μ „λ¬Έκ°€μ˜ 평가 기쀀을 λͺ…ν™•νžˆ ν•˜κ³  LLM을 이λ₯Ό λ”°λ₯΄λ„둝 ν›ˆλ ¨μ‹œμΌœ, 질적 νŒλ‹¨μ„ ν™•μž₯ κ°€λŠ₯ν•˜λ©΄μ„œλ„ μΈκ°„μ˜ 인식과 μΌμΉ˜ν•˜λŠ” λ°©μ‹μœΌλ‘œ 평가할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ•ˆμ •μ μ΄κ³  해석 κ°€λŠ₯ν•œ 평가: 반볡 ν‰κ°€μ—μ„œ 일관성을 보이며, ν™˜κ°μ΄λ‚˜ μ˜λ„ λΆˆμΌμΉ˜μ™€ 같은 생성 AI의 μ‹€νŒ¨ λͺ¨λ“œλ₯Ό μ§„λ‹¨ν•˜λŠ” 데 λ›°μ–΄λ‚œ μ„±λŠ₯을 보여, 결과의 μ‹ λ’°μ„±κ³Ό 해석 κ°€λŠ₯성을 λ†’μž…λ‹ˆλ‹€.
β€’
ν–₯ν›„ 과제: QQJ ν”„λ ˆμž„μ›Œν¬μ˜ ꡬ좕 및 쑰정에 μ—¬μ „νžˆ μ „λ¬Έκ°€μ˜ λ…Έλ ₯이 ν•„μš”ν•˜λ©°, λ‹€μ–‘ν•œ 생성 μž‘μ—…κ³Ό λͺ¨λ‹¬λ¦¬ν‹°μ— λŒ€ν•œ 지속적인 검증 및 μ΅œμ ν™”κ°€ μš”κ΅¬λ©λ‹ˆλ‹€.
πŸ‘