Sign In

Robust Reasoning Benchmark

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Pavel Golikov, Evgenii Opryshko, Gennady Pekhimenko, Mark C. Jeffrey

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ํ‘œ์ค€ ์ˆ˜ํ•™ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์ด ๋ฌธ๋งฅ ๋ฐ ํ…์ŠคํŠธ ํ˜•์‹์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ๋ฌธ์ œ๋ฅผ ์ œ๊ธฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด AIME 2024 ๋ฐ 2025 ๋ฌธ์ œ์— 13๊ฐ€์ง€ ๊ฒฐ์ •๋ก ์  ํ…์ŠคํŠธ ๋ณ€ํ˜•์„ ์ ์šฉํ•œ Robust Reasoning Benchmark (RRB)๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ๋“ค์€ ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ•๊ฑด์„ฑ์„ ๋ณด์˜€์œผ๋‚˜, Claude ๋ชจ๋ธ์€ ๋ณ€ํ˜•๋œ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•ด ๋งŽ์€ ๊ฒฝ์šฐ ์‘๋‹ต์„ ๊ฑฐ๋ถ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM์˜ ๊ฐ•๊ฑดํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์€ ํ…์ŠคํŠธ ํ˜•์‹ ๋ณ€ํ™”์— ๋ฏผ๊ฐํ•˜๊ฒŒ ๋ฐ˜์‘ํ•˜๋ฉฐ, ์ด๋Š” ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์˜ ๊ทผ๋ณธ์ ์ธ ๊ฐœ์„ ์ด ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๊ณต๊ฐœ ๊ฐ€์ค‘์น˜ ๋ชจ๋ธ๋“ค์€ ๊ตฌ์กฐ์  ๋…ธ์ด์ฆˆ์— ์ทจ์•ฝํ•˜๋ฉฐ, ์ธ์ง€์  ์˜ค๋ฅ˜, ํ† ํฐํ™” ์˜ค๋ฅ˜, ์ถ”๋ก  ๋ถ•๊ดด ๋“ฑ ๋‹ค์–‘ํ•œ ์‹คํŒจ ๋ชจ๋“œ๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค.
โ€ข
๋ชจ๋ธ ์ž์ฒด์˜ ์—ฐ์‡„์  ์‚ฌ๊ณ  ๊ณผ์ •(chain-of-thought)์œผ๋กœ ์ธํ•œ ์–ดํ…์…˜ ํฌ์„(attention dilution) ํ˜„์ƒ์ด ๋ฐœ๊ฒฌ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Š” ์ˆœ์ฐจ์  ๋ฌธ์ œ ํ•ด๊ฒฐ ์‹œ ์„ฑ๋Šฅ ์ €ํ•˜๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค.
โ€ข
ํ–ฅํ›„ LLM ์•„ํ‚คํ…์ฒ˜๋Š” ๋ชจ๋ธ ์ž์ฒด์˜ ์—ฐ์‡„์  ์‚ฌ๊ณ  ๊ณผ์ • ๋‚ด์—์„œ ๋ช…์‹œ์ ์ธ ๋ฌธ๋งฅ ์žฌ์„ค์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ฉํ•ด์•ผ ํ•  ํ•„์š”๊ฐ€ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์ตœ์ ์˜ ์ถ”๋ก  ์ž‘์—… ๋ถ„ํ•  ๋‹จ์œ„์— ๋Œ€ํ•œ ์—ฐ๊ตฌ ์งˆ๋ฌธ์„ ์ œ๊ธฐํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘