Sign In

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Created by
  • Haebom
Category
Empty

μ €μž

Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song

πŸ’‘ κ°œμš”

λ³Έ 논문은 LLM 기반 μ—μ΄μ „νŠΈκ°€ 동적인 μ‹€μ œ ν™˜κ²½μ— μ μ‘ν•˜λŠ” λŠ₯λ ₯을 μ œλŒ€λ‘œ ν‰κ°€ν•˜μ§€ λͺ»ν•˜λŠ” κΈ°μ‘΄ 벀치마크의 ν•œκ³„λ₯Ό μ§€μ ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, 논문은 ν™˜κ²½ μ§„ν™”λ₯Ό ν”„λ‘œκ·Έλž˜λ° κ°€λŠ₯ν•˜κ²Œ λ§Œλ“œλŠ” κ·Έλž˜ν”„ 기반 ν”„λ ˆμž„μ›Œν¬μΈ ProEvolveλ₯Ό μ œμ•ˆν•˜λ©°, 이λ₯Ό 톡해 μ—μ΄μ „νŠΈμ˜ 적응λ ₯을 효과적으둜 평가할 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€. ProEvolveλŠ” 데이터, 도ꡬ, μŠ€ν‚€λ§ˆλ₯Ό κ·Έλž˜ν”„λ‘œ ν‘œν˜„ν•˜κ³ , κ·Έλž˜ν”„ λ³€ν™˜μ„ 톡해 ν™˜κ²½μ˜ μ§„ν™” 과정을 μžλ™ μƒμ„±ν•˜κ³  λ‹€μ–‘ν•œ μž‘μ—… μƒŒλ“œλ°•μŠ€λ₯Ό μΈμŠ€ν„΄μŠ€ν™”ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM 기반 μ—μ΄μ „νŠΈμ˜ μ‹€μ œ ν™˜κ²½ 적응λ ₯ 평가λ₯Ό μœ„ν•œ 동적이고 ν”„λ‘œκ·Έλž˜λ° κ°€λŠ₯ν•œ 벀치마크 κ΅¬μΆ•μ˜ ν•„μš”μ„±μ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
κ·Έλž˜ν”„ λ³€ν™˜μ„ 톡해 ν™˜κ²½μ˜ 진화와 μž‘μ—… μƒŒλ“œλ°•μŠ€ 생성을 ν†΅ν•©μ μœΌλ‘œ κ΄€λ¦¬ν•˜λŠ” μƒˆλ‘œμš΄ 방법둠을 μ œμ•ˆν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ ProEvolve ν”„λ ˆμž„μ›Œν¬λŠ” μˆ˜λ§Žμ€ ν™˜κ²½κ³Ό μž‘μ—… μƒŒλ“œλ°•μŠ€λ₯Ό μžλ™μœΌλ‘œ μƒμ„±ν•˜μ—¬ μ—μ΄μ „νŠΈ λ²€μΉ˜λ§ˆν‚Ήμ˜ νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ œμ•ˆλœ ν”„λ ˆμž„μ›Œν¬μ˜ ν™•μž₯μ„±κ³Ό μ‹€μ œ λ³΅μž‘ν•œ ν™˜κ²½μ„ μ–Όλ§ˆλ‚˜ 잘 λͺ¨μ‚¬ν•  수 μžˆλŠ”μ§€μ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘