Sign In

Toward Training Superintelligent Software Agents through Self-Play SWE-RL

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yuxiang Wei, Zhiqing Sun, Emily McMilin, Jonas Gehring, David Zhang, Gabriel Synnaeve, Daniel Fried, Lingming Zhang, Sida Wang

πŸ’‘ κ°œμš”

λ³Έ 논문은 μΈκ°„μ˜ μ§€μ‹μ΄λ‚˜ νλ ˆμ΄μ…˜μ— μ˜μ‘΄ν•˜λŠ” κΈ°μ‘΄ μ†Œν”„νŠΈμ›¨μ–΄ μ—μ΄μ „νŠΈ ν•™μŠ΅μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄ 'Self-play SWE-RL (SSR)'μ΄λΌλŠ” μƒˆλ‘œμš΄ ν•™μŠ΅ νŒ¨λŸ¬λ‹€μž„μ„ μ œμ•ˆν•©λ‹ˆλ‹€. SSR은 μ΅œμ†Œν•œμ˜ 데이터 κ°€μ •(μƒŒλ“œλ°•μŠ€ ν™˜κ²½μ˜ μ†ŒμŠ€ μ½”λ“œ 및 μ˜μ‘΄μ„±)λ§Œμ„ μš”κ΅¬ν•˜λ©°, 인간이 λ ˆμ΄λΈ”λ§ν•œ μ΄μŠˆλ‚˜ ν…ŒμŠ€νŠΈ 없이도 λ³΅μž‘ν•œ 버그λ₯Ό μ‚½μž…ν•˜κ³  μˆ˜μ •ν•˜λŠ” λ°©μ‹μœΌλ‘œ μ—μ΄μ „νŠΈλ₯Ό κ°•ν™” ν•™μŠ΅μ‹œν‚΅λ‹ˆλ‹€. 이λ₯Ό 톡해 인간 데이터 기반 λ² μ΄μŠ€λΌμΈμ„ λŠ₯κ°€ν•˜λŠ” 자기 κ°œμ„  λŠ₯λ ₯κ³Ό μ„±λŠ₯을 보여주며, μ΄ˆμ§€λŠ₯ μ†Œν”„νŠΈμ›¨μ–΄ μ—μ΄μ „νŠΈ 개발의 κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
기쑴의 인간 의쑴적인 ν•™μŠ΅ λ°©μ‹μ—μ„œ λ²—μ–΄λ‚˜, μ—μ΄μ „νŠΈκ°€ 슀슀둜 μ‹€μ œ μ½”λ“œλ² μ΄μŠ€μ—μ„œ ν•™μŠ΅ κ²½ν—˜μ„ μΆ•μ ν•˜λŠ” μƒˆλ‘œμš΄ 경둜λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ³΅μž‘ν•œ μ†Œν”„νŠΈμ›¨μ–΄ 버그λ₯Ό μžμ—°μ–΄ μ„€λͺ… λŒ€μ‹  ν…ŒμŠ€νŠΈ 패치둜 λͺ…ν™•ν•˜κ²Œ μ •μ˜ν•¨μœΌλ‘œμ¨, μ—μ΄μ „νŠΈκ°€ 더 깊이 μžˆλŠ” 이해와 문제 ν•΄κ²° λŠ₯λ ₯을 갖도둝 μœ λ„ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
아직 초기 연ꡬ 단계이며, μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μž₯기적인 ν™•μž₯μ„± 및 λ‹€μ–‘ν•œ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œμ˜ 적용 κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘