Sign In

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” LLM ์•ˆ์ „์„ฑ ๋ฒค์น˜๋งˆํฌ๋“ค์˜ ์ฝ”๋“œ ํ’ˆ์งˆ๊ณผ ์ปค๋ฎค๋‹ˆํ‹ฐ ์ฑ„ํƒ ์š”์ธ์„ ๋ถ„์„ํ•˜์—ฌ ๋ฒค์น˜๋งˆํฌ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์žฌํ˜„์„ฑ์— ๋Œ€ํ•œ ๋ฌธ์ œ์ ์„ ์ œ๊ธฐํ•ฉ๋‹ˆ๋‹ค. 31๊ฐœ์˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์ฝ”๋“œ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ, ์„ค์น˜ ์•ˆ๋‚ด, ์œค๋ฆฌ์  ๊ณ ๋ ค์‚ฌํ•ญ ๋“ฑ์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, ์ƒ๋‹น์ˆ˜์˜ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์ˆ˜์ • ์—†์ด๋Š” ์‹คํ–‰๋˜์ง€ ์•Š์œผ๋ฉฐ ์œค๋ฆฌ์  ๊ณ ๋ ค๊ฐ€ ๋ถ€์กฑํ•จ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €๋ช…๋„์™€ ์ฝ”๋“œ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ์ด ๋ฒค์น˜๋งˆํฌ ์ฑ„ํƒ์— ๋” ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋ฉฐ, ์ฝ”๋“œ ํ’ˆ์งˆ ์ž์ฒด๋Š” ๋œ ์ค‘์š”ํ•˜๊ฒŒ ์ž‘์šฉํ•œ๋‹ค๋Š” ์ ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM ์•ˆ์ „์„ฑ ๋ฒค์น˜๋งˆํฌ์˜ ๋‚ฎ์€ ์ฝ”๋“œ ํ’ˆ์งˆ๊ณผ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ์€ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ์˜ ์žฌํ˜„์„ฑ์„ ์ €ํ•ดํ•˜๊ณ , ๋ฒค์น˜๋งˆํฌ ๊ฐ„ ๋น„๊ต๋ฅผ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
โ€ข
๋ฒค์น˜๋งˆํฌ์˜ ์ฑ„ํƒ์€ ์ฝ”๋“œ์˜ ์‹ค์ œ ํ’ˆ์งˆ๋ณด๋‹ค๋Š” ์ €๋ช…๋„์™€ ์‹คํ–‰ ์šฉ์ด์„ฑ์— ๋” ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค๋Š” ์ ์€ ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ ๋ฒค์น˜๋งˆํฌ ์„ ํƒ ์‹œ ๋†’์€ ์ฝ”๋”ฉ ํ‘œ์ค€์„ ์ถฉ๋ถ„ํžˆ ๊ณ ๋ คํ•˜์ง€ ์•Š์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ผ๋ถ€ ๋ฒค์น˜๋งˆํฌ๋Š” ์œ ํ•ดํ•œ ์ฝ˜ํ…์ธ ๋ฅผ ์œค๋ฆฌ์  ๊ฒฝ๊ณ ๋‚˜ ์ ‘๊ทผ ํ†ต์ œ ์—†์ด ๊ณต๊ฐœํ•˜์—ฌ ์ž ์žฌ์ ์ธ ์•…์šฉ ์œ„ํ—˜์„ ๋†’์ž…๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” ๋ฒค์น˜๋งˆํฌ ๊ธฐ์—ฌ์ž๋“ค์„ ์œ„ํ•œ ๊ฐœ์„  ๋ฐฉ์•ˆ์„ ์ œ์‹œํ•˜์ง€๋งŒ, ๋ฒค์น˜๋งˆํฌ์˜ ์„ค๊ณ„ ๋ฐ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์— ๋Œ€ํ•œ ๊นŠ์ด ์žˆ๋Š” ๋ถ„์„์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘