Sign In

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Created by
  • Haebom
Category
Empty

μ €μž

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri

πŸ’‘ κ°œμš”

LLM 기반 μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œμ˜ 확산에도 λΆˆκ΅¬ν•˜κ³  κΈ°μ‘΄ ν‰κ°€λŠ” λͺ¨λΈμ—λ§Œ μ§‘μ€‘λ˜μ–΄ μ‹œμŠ€ν…œ ꡬ성 μš”μ†Œ κ°„μ˜ μƒν˜Έμž‘μš©κ³Ό μ„±λŠ₯에 λŒ€ν•œ 이해가 λΆ€μ‘±ν–ˆμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 ν”„λ ˆμž„μ›Œν¬, ν† ν΄λ‘œμ§€, μ˜€μΌ€μŠ€νŠΈλ ˆμ΄μ…˜ 둜직, 였λ₯˜ 처리 λ“± μ‹œμŠ€ν…œ κ΅¬ν˜„ 결정이 μ„±λŠ₯에 λ―ΈμΉ˜λŠ” 영ν–₯을 μ²΄κ³„μ μœΌλ‘œ λΆ„μ„ν•˜κΈ° μœ„ν•œ MASEval ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. MASEval은 3개의 벀치마크, 3개의 λͺ¨λΈ, 3개의 ν”„λ ˆμž„μ›Œν¬μ— 걸친 포괄적인 μ‹œμŠ€ν…œ μˆ˜μ€€ 비ꡐλ₯Ό 톡해 ν”„λ ˆμž„μ›Œν¬ 선택이 λͺ¨λΈ μ„ νƒλ§ŒνΌμ΄λ‚˜ μ„±λŠ₯에 μ€‘μš”ν•¨μ„ μž…μ¦ν•˜λ©°, μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œμ˜ 섀계 및 κ΅¬ν˜„μ— λŒ€ν•œ μƒˆλ‘œμš΄ 톡찰을 μ œκ³΅ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κΈ°μ‘΄ λͺ¨λΈ μ€‘μ‹¬μ˜ ν‰κ°€μ—μ„œ λ²—μ–΄λ‚˜ μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œ 전체λ₯Ό 뢄석 λ‹¨μœ„λ‘œ μ‚ΌμŒμœΌλ‘œμ¨, μ‹€μ œ μ‹œμŠ€ν…œ ꡬ좕에 ν•„μš”ν•œ 포괄적인 평가 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
ν”„λ ˆμž„μ›Œν¬μ™€ λͺ¨λΈ 선택이 μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œ μ„±λŠ₯에 λ―ΈμΉ˜λŠ” λ™λ“±ν•œ μ€‘μš”μ„±μ„ μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν•˜μ—¬, μ‹œμŠ€ν…œ 섀계 μ‹œ λ‹€μ–‘ν•œ ꡬ성 μš”μ†Œμ˜ 영ν–₯을 κ³ λ €ν•˜λ„λ‘ μœ λ„ν•©λ‹ˆλ‹€.
β€’
MASEval은 λ‹€μ–‘ν•œ ν”„λ ˆμž„μ›Œν¬μ™€ κ΅¬ν˜„μ„ 비ꡐ할 수 μžˆλŠ” 틀을 μ œκ³΅ν•˜μ—¬, μ—°κ΅¬μžμ™€ μ‹€λ¬΄μžκ°€ νŠΉμ • μ‚¬μš© 사둀에 κ°€μž₯ μ ν•©ν•œ μ‹œμŠ€ν…œμ„ μ‹λ³„ν•˜λŠ” 데 도움을 쀄 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ‹œλœ 벀치마크 및 μ‹€ν—˜μ΄ νŠΉμ • μ‹œλ‚˜λ¦¬μ˜€μ— κ΅­ν•œλ  수 있으며, 더 넓은 λ²”μœ„μ˜ μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œ ꡬ성 및 λ³΅μž‘ν•œ μ‹€μ œ 적용 사둀에 λŒ€ν•œ 좔가적인 평가가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘