Sign In

POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Qiaoyuan Zheng, Yiqu Yang, Qi Gao, Imanol Schlag

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ LLM ์—์ด์ „ํŠธ๊ฐ€ ์‚ฌ์šฉ์ž ๊ฐœ์ธ์ •๋ณด๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ์™€ ์œ ์šฉ์„ฑ ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ์ง„๋‹จํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ POLAR-Bench๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. POLAR-Bench๋Š” ์‚ฌ์šฉ์ž ์ •์˜ ํ”„๋ผ์ด๋ฒ„์‹œ ์ •์ฑ…๊ณผ ๊ณต๊ฒฉ์ ์ธ ์ œ3์ž ๋ชจ๋ธ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ์—์ด์ „ํŠธ์˜ ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ์€ ๋†’์€ ์ˆ˜์ค€์˜ ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์ง€๋งŒ, ์˜จ๋””๋ฐ”์ด์Šค๋‚˜ ๊ฐœ์ธ ์ถ”๋ก  ํ™˜๊ฒฝ์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์†Œํ˜• ๋ชจ๋ธ๋“ค์€ ์ƒ๋Œ€์ ์œผ๋กœ ์ทจ์•ฝํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM ์—์ด์ „ํŠธ์˜ ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ ๊ฒฉ์ฐจ: ๋Œ€๊ทœ๋ชจ ์ตœ์ฒจ๋‹จ LLM ๋ชจ๋ธ์€ ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ์— ๊ฐ•์ ์„ ๋ณด์ด๋‚˜, ์‚ฌ์šฉ์ž๊ฐ€ ์ง์ ‘ ์šด์˜ํ•˜๊ธฐ ์‰ฌ์šด ์†Œํ˜• ๋ชจ๋ธ๋“ค์€ ์ƒ๋Œ€์ ์œผ๋กœ ๊ฐœ์ธ์ •๋ณด ์œ ์ถœ ์œ„ํ—˜์ด ๋” ๋†’๋‹ค๋Š” ์ ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ •๋Ÿ‰์ ์ด๊ณ  ์ง„๋‹จ์ ์ธ ํ‰๊ฐ€: POLAR-Bench๋Š” ๋‹ค์–‘ํ•œ ๊ณต๊ฒฉ ์ „๋žต๊ณผ ์ •์ฑ… ์ฐจ์›์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ ์ทจ์•ฝ์ ์„ ๊ตฌ์ฒด์ ์ธ ์˜์—ญ์—์„œ ์‹๋ณ„ํ•  ์ˆ˜ ์žˆ๋Š” ์ง„๋‹จ ๋„๊ตฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ์™€ ์œ ์šฉ์„ฑ์˜ ๋ณต์žกํ•œ ์ƒํ˜ธ์ž‘์šฉ: ํ”„๋ผ์ด๋ฒ„์‹œ ์ •์ฑ…์˜ ๋ณต์žก์„ฑ ๋ฐ ๊ณต๊ฒฉ ์ „๋žต์˜ ๋‹ค์–‘์„ฑ์€ ๋ชจ๋ธ์˜ ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ ์„ฑ๋Šฅ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋ฉฐ, ์ด๋Š” ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ ๊ฐ•ํ™”์™€ ์œ ์šฉ์„ฑ ์œ ์ง€ ๊ฐ„์˜ ๊ท ํ˜•์ ์„ ์ฐพ๋Š” ๋ฐ ์–ด๋ ค์›€์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘