IndicSafe: A Benchmark for Evaluating Multilingual LLM Safety in South Asia

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
๋น„์–ด ์žˆ์Œ

์ €์ž

Priyaranjan Pattnayak, Sanchari Chowdhuri

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋‚จ์•„์‹œ์•„์˜ 12๊ฐœ ์ธ๋„ ์–ธ์–ด์—์„œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์•ˆ์ „์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ตœ์ดˆ์˜ ์ฒด๊ณ„์ ์ธ ๋ฒค์น˜๋งˆํฌ์ธ IndicSafe๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. 6,000๊ฐœ์˜ ๋ฌธํ™”์ ์œผ๋กœ ๋ฏผ๊ฐํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 10๊ฐœ์˜ ์„ ๋„์ ์ธ LLM์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, ์–ธ์–ด ๊ฐ„ ์•ˆ์ „์„ฑ ์ผ์น˜์œจ์ด 12.8%์— ๋ถˆ๊ณผํ•˜๋ฉฐ ๋ชจ๋ธ๋ณ„ ์•ˆ์ „์„ฑ ๋น„์œจ ํŽธ์ฐจ๊ฐ€ 17%๋ฅผ ์ดˆ๊ณผํ•˜๋Š” ์‹ฌ๊ฐํ•œ ์•ˆ์ „์„ฑ ๋“œ๋ฆฌํ”„ํŠธ๋ฅผ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ๋‹ค๊ตญ์–ด LLM์˜ ์•ˆ์ „์„ฑ ์ผ๋ฐ˜ํ™”์— ์ค‘์š”ํ•œ ๊ฒฉ์ฐจ๊ฐ€ ์กด์žฌํ•˜๋ฉฐ, ์•ˆ์ „์„ฑ ์ •๋ ฌ์ด ์–ธ์–ด๋ณ„๋กœ ๊ท ๋“ฑํ•˜๊ฒŒ ์ „์ด๋˜์ง€ ์•Š์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋‹ค๊ตญ์–ด LLM์˜ ์•ˆ์ „์„ฑ ํ‰๊ฐ€์—์„œ ๋ฌธํ™”์  ๋งฅ๋ฝ๊ณผ ์ง€์—ญ๋ณ„ ์–ธ์–ด์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๊ธฐ์กด LLM๋“ค์€ ์ธ๋„ ์–ธ์–ด์™€ ๊ฐ™์ด ์ž์›์ด ๋ถ€์กฑํ•œ ์–ธ์–ด ํ™˜๊ฒฝ์—์„œ ๋ฌธํ™”์ ์œผ๋กœ ์ ํ•ฉํ•˜์ง€ ์•Š๊ฑฐ๋‚˜ ํŽธํ–ฅ๋œ ์•ˆ์ „์„ฑ ๋ฐ˜์‘์„ ๋ณด์ผ ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” ์ง€์—ญ์  ์œ„ํ•ด์— ๊ธฐ๋ฐ˜ํ•œ ์–ธ์–ด ์ธ์‹ ์ •๋ ฌ ์ „๋žต์˜ ํ•„์š”์„ฑ์„ ์—ญ์„คํ•˜๋ฉฐ, IndicSafe ๋ฒค์น˜๋งˆํฌ๋Š” ํ–ฅํ›„ ํ•ด๋‹น ์ง€์—ญ์—์„œ์˜ LLM ์•ˆ์ „์„ฑ ํ‰๊ฐ€ ๋ฐ ๊ฐœ๋ฐœ์— ๊ธฐ์—ฌํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.
โ€ข
์ผ๋ถ€ LLM์€ ์ €์ž์› ์Šคํฌ๋ฆฝํŠธ์—์„œ ๋ฌดํ•ดํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๊ณผ๋„ํ•˜๊ฒŒ ๊ฑฐ๋ถ€ํ•˜๊ฑฐ๋‚˜, ์ •์น˜์ ์œผ๋กœ ๋ฏผ๊ฐํ•œ ์ฃผ์ œ๋ฅผ ๊ณผ๋„ํ•˜๊ฒŒ ํ”Œ๋ž˜๊น…ํ•˜๋Š” ๋ฐ˜๋ฉด, ๋‹ค๋ฅธ ๋ชจ๋ธ์€ ์•ˆ์ „ํ•˜์ง€ ์•Š์€ ์ƒ์„ฑ์„ ์ œ๋Œ€๋กœ ํ”Œ๋ž˜๊น…ํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„์ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
๐Ÿ‘