Daily Arxiv

์ „ ์„ธ๊ณ„์—์„œ ๋ฐœ๊ฐ„๋˜๋Š” ์ธ๊ณต์ง€๋Šฅ ๊ด€๋ จ ๋…ผ๋ฌธ์„ ์ •๋ฆฌํ•˜๋Š” ํŽ˜์ด์ง€ ์ž…๋‹ˆ๋‹ค.
๋ณธ ํŽ˜์ด์ง€๋Š” Google Gemini๋ฅผ ํ™œ์šฉํ•ด ์š”์•ฝ ์ •๋ฆฌํ•˜๋ฉฐ, ๋น„์˜๋ฆฌ๋กœ ์šด์˜ ๋ฉ๋‹ˆ๋‹ค.
๋…ผ๋ฌธ์— ๋Œ€ํ•œ ์ €์ž‘๊ถŒ์€ ์ €์ž ๋ฐ ํ•ด๋‹น ๊ธฐ๊ด€์— ์žˆ์œผ๋ฉฐ, ๊ณต์œ  ์‹œ ์ถœ์ฒ˜๋งŒ ๋ช…๊ธฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

SOCK: A Benchmark for Measuring Self-Replication in Large Language Models

Created by
  • Haebom
Category
Empty

์ €์ž

Justin Chavarria, Rohan Raizada, Justin White, Eyad Alhetairshi

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ž๊ธฐ ๋ณต์ œ ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์ธ SOCK์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. SOCK์€ LLM์ด ์ธ๊ฐ„์˜ ๊ฐœ์ž… ์—†์ด ์Šค์Šค๋กœ์˜ ์ž‘๋™ํ•˜๋Š” ๋ณต์‚ฌ๋ณธ์„ ์ƒ์„ฑํ•˜๊ณ , ๋‹ค์–‘ํ•œ ์ปดํ“จํŒ… ํ™˜๊ฒฝ์—์„œ ์ง€์†์ ์œผ๋กœ ๋ณต์ œํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. SOCK์€ Replication-Capability Levels (RCL) ๋ฐ Persistence-Capability Levels (PCL)์„ ํ†ตํ•ด LLM์˜ ์ž๊ธฐ ๋ณต์ œ ๋Šฅ๋ ฅ์„ ๋ถ„๋ฅ˜ํ•˜๋ฉฐ, ์‹ค์šฉ์ ์ธ CLI ์œ ํ‹ธ๋ฆฌํ‹ฐ๋ฅผ ํ™œ์šฉํ•œ 5๊ฐ€์ง€ ๊ณผ์ œ ๊ธฐ๋ฐ˜ ํ…Œ์ŠคํŠธ๋ฅผ ํ†ตํ•ด R-score๋ฅผ ์‚ฐ์ถœํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
SOCK์€ LLM์˜ ์ž๊ธฐ ๋ณต์ œ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ตœ์ดˆ์˜ ๊ณต์‹ํ™”๋œ ์ •์˜์™€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ๋ฏธ๋ž˜ ์—ฐ๊ตฌ์˜ ํ‘œ์ค€์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ๋ฒค์น˜๋งˆํฌ๋Š” ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ํšจ์œจ์„ฑ์„ ์ถ”์ ํ•˜๊ณ , ์ž ์žฌ์ ์ธ ์ž๊ธฐ ๋ณต์ œ ์œ„ํ˜‘ ์š”์†Œ๋ฅผ ์™„ํ™”ํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์‹คํ—˜ ๊ฒฐ๊ณผ, LLM์˜ ์ง€์†์ ์ธ ์ž๊ธฐ ๋ณต์ œ์™€ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ ๊ตฌ์ถ•์—๋Š” ๋ฌธ๋งฅ ์œ ์ง€ ๋ฐ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์˜์‚ฌ ๊ฒฐ์ •๊ณผ ๊ฐ™์€ ์ค‘์š”ํ•œ ์žฅ์• ๋ฌผ์ด ์กด์žฌํ•˜๋ฉฐ, ์ด์— ๋Œ€ํ•œ ์•ˆ์ „ํ•œ ํ•ด๊ฒฐ ๋ฐฉ์•ˆ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘