Sign In

Evaluating Plan Compliance in Autonomous Programming Agents

Created by
  • Haebom
Category
Empty

μ €μž

Shuyang Liu, Saman Dehghan, Jatin Ganhotra, Martin Hirzel, Reyhaneh Jabbarvand

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 자율 ν”„λ‘œκ·Έλž˜λ° μ—μ΄μ „νŠΈκ°€ μ§€μ‹œλ°›μ€ κ³„νšμ„ μ–Όλ§ˆλ‚˜ μ€€μˆ˜ν•˜λŠ”μ§€ μ²΄κ³„μ μœΌλ‘œ λΆ„μ„ν•©λ‹ˆλ‹€. λ‹€μ–‘ν•œ LLMκ³Ό κ³„νš λ³€ν˜•μ„ μ‚¬μš©ν•˜μ—¬ 16,991개의 μ‹€ν–‰ ꢀ적을 ν‰κ°€ν•œ κ²°κ³Ό, λͺ…μ‹œμ μΈ κ³„νšμ΄ 없을 λ•Œ μ—μ΄μ „νŠΈλŠ” μ’…μ’… λΆˆμ™„μ „ν•˜κ±°λ‚˜ κ³Όμ ν•©λœ λ‚΄λΆ€ μ›Œν¬ν”Œλ‘œμš°μ— μ˜μ‘΄ν•˜λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€. κ³„νšμ„ μ œκ³΅ν•˜λ©΄ 문제 ν•΄κ²° λŠ₯λ ₯이 ν–₯μƒλ˜μ§€λ§Œ, 잘λͺ»λœ κ³„νšμ€ 였히렀 μ„±λŠ₯을 μ €ν•˜μ‹œν‚€λ©°, 특히 μ΄ˆλ°˜μ— λΆˆν•„μš”ν•œ 단계λ₯Ό μΆ”κ°€ν•˜λŠ” 것은 뢀정적인 영ν–₯을 쀄 수 μžˆμŒμ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
자율 μ—μ΄μ „νŠΈκ°€ μ£Όμ–΄μ§„ κ³„νšμ„ μ–Όλ§ˆλ‚˜ λ”°λ₯΄λŠ”μ§€μ— λŒ€ν•œ μ΄ν•΄λŠ” μ—μ΄μ „νŠΈμ˜ μ‹€μ œ 문제 ν•΄κ²° λŠ₯λ ₯을 ν‰κ°€ν•˜λŠ” 데 ν•„μˆ˜μ μž…λ‹ˆλ‹€.
β€’
κ³„νšμ€ μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯에 큰 영ν–₯을 미치며, 잘 κ΅¬μ„±λœ κ³„νšμ€ 문제 ν•΄κ²° 성곡λ₯ μ„ 높일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ—μ΄μ „νŠΈκ°€ κ³„νšμ„ λ”°λ₯΄λ„둝 μ§€λ„ν•˜λŠ” μƒˆλ‘œμš΄ νŒŒμΈνŠœλ‹ νŒ¨λŸ¬λ‹€μž„μ— λŒ€ν•œ 연ꡬ ν•„μš”μ„±μ΄ μ œκΈ°λ©λ‹ˆλ‹€.
β€’
μ΄ˆλ°˜μ— κ³Όλ„ν•˜κ²Œ μƒμ„Έν•˜κ±°λ‚˜ λͺ¨λΈμ˜ λ‚΄λΆ€ μ „λž΅κ³Ό λ§žμ§€ μ•ŠλŠ” κ³„νšμ€ 였히렀 μ„±λŠ₯을 μ €ν•˜μ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘