Sign In

JADE: Expert-Grounded Dynamic Evaluation for Open-Ended Professional Tasks

Created by
  • Haebom
Category
Empty

μ €μž

Lanbo Lin, Jiayao Liu, Tianyuan Yang, Li Cai, Yuanwu Xu, Lei Wei, Sicong Xie, Guannan Zhang

πŸ’‘ κ°œμš”

μ˜€ν”ˆ μ—”λ“œ μ „λ¬Έ μž‘μ—…μ—μ„œ μ—μ΄μ „νŠΈν˜• AIλ₯Ό ν‰κ°€ν•˜λŠ” 것은 엄격성과 μœ μ—°μ„± μ‚¬μ΄μ˜ λ”œλ ˆλ§ˆλ₯Ό μ•ˆκ³  μžˆμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 μ „λ¬Έκ°€μ˜ 지식을 κ³„μΈ΅ν™”λœ 평가 ν”„λ ˆμž„μ›Œν¬μΈ JADEλ₯Ό μ œμ•ˆν•˜μ—¬ 이 문제λ₯Ό ν•΄κ²°ν•©λ‹ˆλ‹€. JADEλŠ” μ „λ¬Έκ°€ 지식을 평가 μŠ€ν‚¬λ‘œ μΈμ½”λ”©ν•˜κ³ , 각 λ³΄κ³ μ„œμ˜ μ£Όμž₯을 κ°œλ³„μ μœΌλ‘œ ν‰κ°€ν•˜λ©°, 증거 μ˜μ‘΄μ„±μ„ κ²€μ¦ν•˜μ—¬ μ•ˆμ •μ μ΄κ³  μœ μ—°ν•œ 평가λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
JADEλŠ” κΈ°μ‘΄ LLM 기반 ν‰κ°€μžμ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜μ—¬ μ•ˆμ •μ„±κ³Ό μœ μ—°μ„±μ„ λͺ¨λ‘ κ°–μΆ˜ 평가 방법을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
BizBench μ‹€ν—˜μ„ 톡해 JADEκ°€ μ€‘μš”ν•œ μ—μ΄μ „νŠΈ μ‹€νŒ¨ λͺ¨λ“œλ₯Ό νƒμ§€ν•˜κ³  μ „λ¬Έκ°€ 평가 κΈ°μ€€κ³Ό 높은 정렬성을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 μ „λ¬Έ λΆ„μ•Ό μ „λ°˜μ— 걸쳐 μœ νš¨μ„±μ„ μž…μ¦ν–ˆμœΌλ©°, ν–₯ν›„ AI μ—μ΄μ „νŠΈ 평가 연ꡬ에 μ€‘μš”ν•œ 기반이 될 κ²ƒμž…λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제): JADE ν”„λ ˆμž„μ›Œν¬λ₯Ό λ”μš± λ‹€μ–‘ν•œ μ „λ¬Έ 뢄야와 λ³΅μž‘ν•œ μž‘μ—…μ— μ μš©ν•˜κ³ , 평가 μŠ€ν‚¬ μ •μ˜ 및 ν™œμš© μžλ™ν™”μ— λŒ€ν•œ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘