Sign In

CodeClash: Benchmarking Goal-Oriented Software Engineering

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

John Yang, Kilian Lieret, Joyce Yang, Carlos E. Jimenez, Muhtasham Oblokulov, Aryan Siddiqui, Ofir Press, Ludwig Schmidt, Diyi Yang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๊ณ ์ˆ˜์ค€์˜ ๋ชฉํ‘œ ๋‹ฌ์„ฑ์„ ์œ„ํ•ด ๋ฐ˜๋ณต์ ์œผ๋กœ ์ฝ”๋“œ๋ฅผ ๊ฐœ๋ฐœํ•˜๋Š” ์–ธ์–ด ๋ชจ๋ธ(LM)์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ CodeClash๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. CodeClash๋Š” LM ์—์ด์ „ํŠธ๋“ค์ด ๋ชฉํ‘œ ์ง€ํ–ฅ์ ์ธ ๊ฒฝ์Ÿ์—์„œ ์„œ๋กœ์˜ ์ฝ”๋“œ๋ฒ ์ด์Šค๋ฅผ ๊ฐœ์„ ํ•˜๊ณ  ๋น„๊ตํ•˜๋Š” ๋‹ค์ค‘ ๋ผ์šด๋“œ ํ† ๋„ˆ๋จผํŠธ ํ˜•์‹์œผ๋กœ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค. 1680๋ฒˆ์˜ ํ† ๋„ˆ๋จผํŠธ์™€ 6๊ฐ€์ง€ ์•„๋ ˆ๋‚˜๋ฅผ ํ†ตํ•ด 8๊ฐœ LM์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, LM๋“ค์ด ์ „๋žต์  ์ถ”๋ก  ๋ฐ ์žฅ๊ธฐ์ ์ธ ์ฝ”๋“œ๋ฒ ์ด์Šค ์œ ์ง€๋ณด์ˆ˜์— ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋ฅผ ๋ณด์ด๋ฉฐ, ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์—๊ฒŒ๋Š” ๋ชจ๋“  ๋ผ์šด๋“œ์—์„œ ํŒจ๋ฐฐํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์–ธ์–ด ๋ชจ๋ธ์ด ๊ณ ์ˆ˜์ค€์˜ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์ž์œจ์ ์œผ๋กœ ์ฝ”๋“œ๋ฅผ ๊ฐœ๋ฐœํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
LM๋“ค์ด ๋‹ค์–‘ํ•œ ์ฝ”๋“œ ๊ฐœ๋ฐœ ์Šคํƒ€์ผ์„ ๋ณด์ด์ง€๋งŒ, ์ „๋žต์  ์‚ฌ๊ณ ์™€ ์žฅ๊ธฐ์ ์ธ ์ฝ”๋“œ ํ’ˆ์งˆ ๊ด€๋ฆฌ ๋Šฅ๋ ฅ์—๋Š” ์ƒ๋‹นํ•œ ๊ฐœ์„ ์ด ํ•„์š”ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ LM๋“ค์€ ๋ณต์žกํ•˜๊ณ  ๊ฐœ๋ฐฉ์ ์ธ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ๋ชฉํ‘œ๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์œผ๋ฉฐ, ํŠนํžˆ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์™€์˜ ๊ฒฉ์ฐจ๊ฐ€ ํฝ๋‹ˆ๋‹ค.
โ€ข
ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” LM์˜ ์ „๋žต์  ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ, ์žฅ๊ธฐ ์ฝ”๋“œ๋ฒ ์ด์Šค ์œ ์ง€๋ณด์ˆ˜ ๊ฐœ์„ , ๊ทธ๋ฆฌ๊ณ  ๋” ํ˜„์‹ค์ ์ธ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐœ์ „ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘