Sign In

LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

Created by
  • Haebom
Category
Empty

μ €μž

Weihao Zeng, Yuzhen Huang, Junxian He

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λ™μ μœΌλ‘œ μ¦κ°€ν•˜λŠ” μ»¨ν…μŠ€νŠΈ μ†μ—μ„œ μ—μ΄μ „νŠΈλ‘œμ„œ λ™μž‘ν•˜λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 신뒰성을 ν‰κ°€ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 벀치마크인 LOCA-benchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. LOCA-benchλŠ” ν™˜κ²½ μƒνƒœλ₯Ό μžλ™ν™” 및 ν™•μž₯ κ°€λŠ₯ν•˜κ²Œ μ œμ–΄ν•˜μ—¬ μ»¨ν…μŠ€νŠΈ 길이λ₯Ό μ‘°μ ˆν•¨μœΌλ‘œμ¨, 잠재적으둜 λ¬΄ν•œλŒ€μ— κ°€κΉŒμš΄ μ»¨ν…μŠ€νŠΈμ—μ„œλ„ μ–Έμ–΄ μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯을 평가할 수 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 μ»¨ν…μŠ€νŠΈ 관리 μ „λž΅μ˜ μ€‘μš”μ„±μ„ 보여주며, μ—μ΄μ „νŠΈ μ„±λŠ₯이 μ»¨ν…μŠ€νŠΈ λ³΅μž‘μ„± 증가에 따라 μ €ν•˜λ˜μ§€λ§Œ, κ°œμ„ λœ μ»¨ν…μŠ€νŠΈ 관리 기법이 성곡λ₯ μ„ 높일 수 μžˆμŒμ„ μž…μ¦ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν˜„μ‹€μ μΈ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œ LLM 기반 μ—μ΄μ „νŠΈμ˜ μž₯기적인 μ»¨ν…μŠ€νŠΈ 처리 λŠ₯λ ₯을 ν‰κ°€ν•˜λŠ” μƒˆλ‘œμš΄ ν‘œμ€€μ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ™μ μœΌλ‘œ μ¦κ°€ν•˜λŠ” μ»¨ν…μŠ€νŠΈ ν™˜κ²½μ—μ„œ μ»¨ν…μŠ€νŠΈ 관리 μ „λž΅μ΄ LLM μ—μ΄μ „νŠΈ μ„±λŠ₯에 λ―ΈμΉ˜λŠ” μ€‘μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬ λ²€μΉ˜λ§ˆν¬λŠ” 단일 μŠ€ν… 평가에 μΉ˜μ€‘λ˜μ–΄ μžˆμ–΄, λ³΅μž‘ν•˜κ³  동적인 μ—μ΄μ „νŠΈ ν™˜κ²½μ—μ„œμ˜ LLM μ„±λŠ₯을 μ’…ν•©μ μœΌλ‘œ μΈ‘μ •ν•˜λŠ” 데 ν•œκ³„κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘