Sign In

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Gabriel Orlanski, Devjeet Roy, Alexander Yun, Changho Shin, Alex Gu, Albert Ge, Dyah Adila, Nicholas Roberts, Frederic Sala, Aws Albarghouthi

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ†Œν”„νŠΈμ›¨μ–΄ 개발의 반볡적인 νŠΉμ„±μ„ λ°˜μ˜ν•˜μ—¬, 기쑴의 λ‹¨λ°œμ„± λ²€μΉ˜λ§ˆν¬κ°€ 숨기고 μžˆλŠ” μ½”λ”© μ—μ΄μ „νŠΈμ˜ 섀계 λ¬Έμ œμ μ„ λ“œλŸ¬λ‚΄κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄, μ—μ΄μ „νŠΈκ°€ 슀슀둜의 해결책을 반볡적으둜 ν™•μž₯ν•˜λ©° μ•„ν‚€ν…μ²˜ 결정을 μš”κ΅¬ν•˜λŠ” μƒˆλ‘œμš΄ 벀치마크인 SlopCodeBenchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, ν˜„μž¬ μ½”λ”© μ—μ΄μ „νŠΈλ“€μ€ μž₯κΈ° 반볡 μž‘μ—…μ—μ„œ μ‹¬κ°ν•œ μ½”λ“œ 퇴화(ꡬ쑰적 침식 및 μ½”λ“œ 쀑볡 증가)λ₯Ό κ²ͺ으며, 인간 κ°œλ°œμžκ°€ μž‘μ„±ν•œ μ½”λ“œμ— λΉ„ν•΄ ν’ˆμ§ˆμ΄ ν˜„μ €νžˆ λ–¨μ–΄μ§€λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
반볡적 μž‘μ—…μ—μ„œμ˜ μ½”λ“œ 퇴화 μΈ‘μ •: SlopCodeBenchλŠ” 반볡적인 μ½”λ“œ ν™•μž₯이 μ½”λ”© μ—μ΄μ „νŠΈμ˜ μ½”λ“œ ν’ˆμ§ˆμ— λ―ΈμΉ˜λŠ” 영ν–₯을 졜초둜 μ •λŸ‰μ μœΌλ‘œ μΈ‘μ •ν•  수 μžˆλŠ” κΈ°λ°˜μ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ—μ΄μ „νŠΈ μ•„ν‚€ν…μ²˜ μ„€κ³„μ˜ μ€‘μš”μ„±: μ œμ•ˆλœ λ²€μΉ˜λ§ˆν¬λŠ” λ‹¨μˆœνžˆ κΈ°λŠ₯ κ΅¬ν˜„μ„ λ„˜μ–΄, μž₯기적인 μ½”λ“œ μœ μ§€λ³΄μˆ˜μ„±κ³Ό 확정성을 κ³ λ €ν•œ μ•„ν‚€ν…μ²˜ μ„€κ³„μ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ—μ΄μ „νŠΈμ˜ ν•œκ³„ 및 ν–₯ν›„ 연ꡬ λ°©ν–₯: ν˜„μž¬ μ½”λ”© μ—μ΄μ „νŠΈλ“€μ΄ μž₯κΈ° 반볡 μž‘μ—…μ—μ„œ μ‹¬κ°ν•œ μ½”λ“œ 퇴화λ₯Ό κ²ͺλŠ”λ‹€λŠ” 점을 ν™•μΈν–ˆμœΌλ©°, ν–₯ν›„μ—λŠ” μ΄λŸ¬ν•œ 퇴화λ₯Ό μ™„ν™”ν•˜κ³  μ½”λ“œ ν’ˆμ§ˆμ„ μœ μ§€ν•˜λŠ” μ—μ΄μ „νŠΈ 섀계 및 ν•™μŠ΅ 방법둠 개발이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘