Sign In

PBT-Bench: Benchmarking AI Agents on Property-Based Testing

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Lucas Jing, Xinqi Wang, Liao Zhang, Simon S. Du

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์กด ์ฝ”๋“œ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•˜๋Š” AI ์—์ด์ „ํŠธ์˜ ์†์„ฑ ๊ธฐ๋ฐ˜ ํ…Œ์ŠคํŠธ(Property-Based Testing, PBT) ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•œ PBT-Bench๋ฅผ ์ œ์•ˆํ•œ๋‹ค. PBT-Bench๋Š” ์‹ค์ œ Python ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ ํŒŒ์ƒ๋œ 100๊ฐœ์˜ PBT ๋ฌธ์ œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ๋ฌธ์„œ ๊ธฐ๋ฐ˜์˜ ์˜๋ฏธ๋ก ์  ๋ถˆ๋ณ€์„ฑ์„ ๋„์ถœํ•˜๊ณ  ์ด๋ฅผ ์œ„๋ฐ˜ํ•˜๋Š” ์ž…๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š” ์—์ด์ „ํŠธ์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค. ๋‹ค์–‘ํ•œ LLM๊ณผ ํ”„๋กฌํ”„ํŒ… ์ „๋žต์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, PBT ์ค‘์‹ฌ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์ „๋ฐ˜์ ์œผ๋กœ ๋†’์€ ๋ฒ„๊ทธ ๋ฐœ๊ฒฌ์œจ์„ ๋ณด์˜€์œผ๋ฉฐ, ๋ช…์‹œ์ ์ธ Hypothesis ์Šค์บํด๋”ฉ์ด ์ค‘๊ฐ„ ์„ฑ๋Šฅ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
AI ์—์ด์ „ํŠธ์˜ ๋ฌธ์„œ ์ดํ•ด ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์˜ ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•œ๋‹ค.
โ€ข
๋ช…์‹œ์ ์ธ ์ง€์นจ(Hypothesis ์Šค์บํด๋”ฉ)์ด AI ์—์ด์ „ํŠธ์˜ ์†์„ฑ ๊ธฐ๋ฐ˜ ํ…Œ์ŠคํŠธ ์„ฑ๋Šฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.
โ€ข
๊ฐ€์žฅ ์–ด๋ ค์šด ์†์„ฑ ๊ธฐ๋ฐ˜ ํ…Œ์ŠคํŠธ ๋ฌธ์ œ๋Š” ํŠน์ • ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์— ๋”ฐ๋ผ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ์ปค์„œ, ๋‹จ์ผ ๋ชจ๋ธ๋กœ ๋ชจ๋“  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค.
โ€ข
ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ชจ๋ธ๋ณ„ ๊ฐ•์ ๊ณผ ์•ฝ์ ์„ ๊ณ ๋ คํ•œ ๋งž์ถคํ˜• ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง ๋˜๋Š” ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์„  ๋ฐฉ์•ˆ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ์—์„œ ์‚ฌ์šฉ๋œ ๋ฒค์น˜๋งˆํฌ์™€ ํ‰๊ฐ€ ์ฝ”๋“œ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ ๋ฐœ์ „์— ๊ธฐ์—ฌํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.
๐Ÿ‘