Sign In

GameDevBench: Evaluating Agentic Capabilities Through Game Development

Created by
  • Haebom
Category
Empty

μ €μž

Wayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten, Qiuhong Anna Wei, Runkun Chen, Alexander Wang, Valerie Chen, Ameet Talwalkar, Chris Donahue

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ³΅μž‘ν•œ μ†Œν”„νŠΈμ›¨μ–΄ 개발과 깊이 μžˆλŠ” λ©€ν‹°λͺ¨λ‹¬ 이해λ₯Ό κ²°ν•©ν•œ μƒˆλ‘œμš΄ 평가 벀치마크인 GameDevBenchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. κ²Œμž„ κ°œλ°œμ΄λΌλŠ” λ…νŠΉν•œ ν™˜κ²½μ—μ„œ μ½”λ”© μ—μ΄μ „νŠΈμ˜ λ©€ν‹°λͺ¨λ‹¬ λŠ₯λ ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•΄ μ›Ή 및 λΉ„λ””μ˜€ νŠœν† λ¦¬μ–Όμ—μ„œ νŒŒμƒλœ 132개의 μž‘μ—…μ„ ν¬ν•¨ν•©λ‹ˆλ‹€. μ œμ•ˆλœ 벀치마크λ₯Ό 톡해 ν˜„μž¬ μ—μ΄μ „νŠΈλ“€μ€ κ²Œμž„ 개발 μž‘μ—…μ— 어렀움을 κ²ͺκ³  μžˆμŒμ„ 보여주며, κ°„λ‹¨ν•œ 이미지 및 λΉ„λ””μ˜€ 기반 ν”Όλ“œλ°± λ©”μ»€λ‹ˆμ¦˜μ΄ μ„±λŠ₯ ν–₯상에 νš¨κ³Όμ μž„μ„ μž…μ¦ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κ²Œμž„ κ°œλ°œμ€ μ½”λ”© μ—μ΄μ „νŠΈμ˜ λ³΅μž‘ν•œ λ©€ν‹°λͺ¨λ‹¬ λŠ₯λ ₯을 ν‰κ°€ν•˜λŠ” 데 μœ λ§ν•œ λΆ„μ•Όμž…λ‹ˆλ‹€.
β€’
기쑴의 μ†Œν”„νŠΈμ›¨μ–΄ 개발 λ²€μΉ˜λ§ˆν¬μ— λΉ„ν•΄ 더 λ³΅μž‘ν•˜κ³  λ©€ν‹°λͺ¨λ‹¬μ μΈ 이해λ₯Ό μš”κ΅¬ν•˜λŠ” μƒˆλ‘œμš΄ 평가 ν‘œμ€€μ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ—μ΄μ „νŠΈ μ„±λŠ₯은 μ‹œκ°μ  λ³΅μž‘μ„±μ΄ 높은 μž‘μ—…μ—μ„œ ν˜„μ €νžˆ μ €ν•˜λ˜λŠ” κ²½ν–₯을 보이며, λ©€ν‹°λͺ¨λ‹¬ ν”Όλ“œλ°± λ©”μ»€λ‹ˆμ¦˜μ΄ μ„±λŠ₯ κ°œμ„ μ— κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ—μ΄μ „νŠΈλ“€μ˜ κ²Œμž„ 개발 μž‘μ—… μˆ˜ν–‰ λŠ₯λ ₯이 아직 λΆ€μ‘±ν•˜λ©°, 특히 2D κ·Έλž˜ν”½κ³Ό 같은 νŠΉμ • μ˜μ—­μ—μ„œ κ°œμ„ μ΄ ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘