haebom
Sign In
SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Gabriel Orlanski, Devjeet Roy, Alexander Yun, Changho Shin, Alex Gu, Albert Ge, Dyah Adila, Nicholas Roberts, Frederic Sala, Aws Albarghouthi
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μννΈμ¨μ΄ κ°λ°μ λ°λ³΅μ μΈ νΉμ±μ λ°μνμ¬, κΈ°μ‘΄μ λ¨λ°μ± λ²€μΉλ§ν¬κ° μ¨κΈ°κ³ μλ μ½λ© μμ΄μ νΈμ μ€κ³ λ¬Έμ μ μ λλ¬λ΄κ³ μ ν©λλ€. μ΄λ₯Ό μν΄, μμ΄μ νΈκ° μ€μ€λ‘μ ν΄κ²°μ± μ λ°λ³΅μ μΌλ‘ νμ₯νλ©° μν€ν μ² κ²°μ μ μꡬνλ μλ‘μ΄ λ²€μΉλ§ν¬μΈ SlopCodeBenchλ₯Ό μ μν©λλ€. μ€ν κ²°κ³Ό, νμ¬ μ½λ© μμ΄μ νΈλ€μ μ₯κΈ° λ°λ³΅ μμ μμ μ¬κ°ν μ½λ ν΄ν(ꡬ쑰μ μΉ¨μ λ° μ½λ μ€λ³΅ μ¦κ°)λ₯Ό κ²ͺμΌλ©°, μΈκ° κ°λ°μκ° μμ±ν μ½λμ λΉν΄ νμ§μ΄ νμ ν λ¨μ΄μ§λ κ²μΌλ‘ λνλ¬μ΅λλ€.
π μμ¬μ λ° νκ³
β’
λ°λ³΅μ μμ μμμ μ½λ ν΄ν μΈ‘μ
: SlopCodeBenchλ λ°λ³΅μ μΈ μ½λ νμ₯μ΄ μ½λ© μμ΄μ νΈμ μ½λ νμ§μ λ―ΈμΉλ μν₯μ μ΅μ΄λ‘ μ λμ μΌλ‘ μΈ‘μ ν μ μλ κΈ°λ°μ μ 곡ν©λλ€.
β’
μμ΄μ νΈ μν€ν μ² μ€κ³μ μ€μμ±
: μ μλ λ²€μΉλ§ν¬λ λ¨μν κΈ°λ₯ ꡬνμ λμ΄, μ₯κΈ°μ μΈ μ½λ μ μ§λ³΄μμ±κ³Ό νμ μ±μ κ³ λ €ν μν€ν μ² μ€κ³μ μ€μμ±μ κ°μ‘°ν©λλ€.
β’
νμ¬ μμ΄μ νΈμ νκ³ λ° ν₯ν μ°κ΅¬ λ°©ν₯
: νμ¬ μ½λ© μμ΄μ νΈλ€μ΄ μ₯κΈ° λ°λ³΅ μμ μμ μ¬κ°ν μ½λ ν΄νλ₯Ό κ²ͺλλ€λ μ μ νμΈνμΌλ©°, ν₯νμλ μ΄λ¬ν ν΄νλ₯Ό μννκ³ μ½λ νμ§μ μ μ§νλ μμ΄μ νΈ μ€κ³ λ° νμ΅ λ°©λ²λ‘ κ°λ°μ΄ νμν©λλ€.
PDF 보기
Made with Slashpage