haebom
Sign In
OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences
Created by
Haebom
Category
Empty
์ ์
Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด์ ์ ํด ์๋ ํ์ง ์ค์ฌ์ ๋ฉํฐ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM) ์์ ์ฑ ์ฐ๊ตฌ์์ ๋์๊ฐ, ์ํฉ ์์กด์ ์ธ ์ธ๊ณผ ๊ด๊ณ ๋ด์ ์จ๊ฒจ์ง ์ ์ฌ์ ์ํ์ ์๋ณํ๋ '๊ฒฐ๊ณผ ์ค์ฌ ์์ ์ฑ'์ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ์ํด 455๊ฐ์ ์ง์-์ด๋ฏธ์ง ์์ผ๋ก ๊ตฌ์ฑ๋ OOD-MMSafe ๋ฒค์น๋งํฌ๋ฅผ ๊ฐ๋ฐํ์ฌ ๊ธฐ์กด ๋ชจ๋ธ์ ์ธ๊ณผ ๊ด๊ณ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ณ๋ฅผ ์ง์ ํ๊ณ , ๋ชจ๋ธ ์ฉ๋์ด ์ปค์ง์๋ก ์ ์ ์ธ ์ ๋ ฌ๋ก๋ ์์ ์ฑ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์ ๋์ ํ์์ ์ธ ์ค๋ฅ๊ฐ ๋ฐ์ํ๋ ๋ฌธ์ ์ ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ชจ๋ธ ์์ฒด์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ ์ธ ์ฐธ์กฐ์ ์ผ๋ก ํ์ฉํ๋ CASPO ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ๊ฒฐ๊ณผ ์์ธก ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์์จ ๋ฐ ์ฒดํํ ์์ด์ ํธ์ ์์ ํ ๋ฐฐํฌ๋ฅผ ์ํด ์ ํด ์๋๋ฅผ ๋์ด ์จ๊ฒจ์ง ์ํ์ ํ์ ํ๋ '๊ฒฐ๊ณผ ์ค์ฌ ์์ ์ฑ' ํจ๋ฌ๋ค์์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
โข
๊ธฐ์กด ์ ๋์ ์ธ MLLM๋ค์ด ๋ณต์กํ ์ํฉ ์ ์จ๊ฒจ์ง ์ํ์ ๊ฐ์งํ๋ ๋ฐ ์ฌ๊ฐํ '์ธ๊ณผ ๋งน๋ชฉ'์ ๋ณด์ด๋ฉฐ, ํนํ ๋ชจ๋ธ ์ฉ๋์ด ์ฆ๊ฐํ ์๋ก ์ ์ ์ธ ์์ ์ฑ ์ ๋ ฌ์ ํจ๊ณผ๊ฐ ์ ํ๋จ์ ๋ณด์ฌ์ค๋๋ค.
โข
์ ์๋ CASPO ํ๋ ์์ํฌ๋ ๊ธฐ์กด ๋ชจ๋ธ์ ๊ฒฐ๊ณผ ์์ธก ๋ฅ๋ ฅ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ์ฌ ์ํ ์๋ณ ์คํจ์จ์ ํฌ๊ฒ ๋ฎ์ถ๋ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค.
โข
OOD-MMSafe ๋ฒค์น๋งํฌ์ CASPO ํ๋ ์์ํฌ๋ MLLM์ ์จ๊ฒจ์ง ์ํ ์๋ณ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ณ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ๋ ํน์ ๋ชจ๋ธ ์ํคํ ์ฒ ๋ฐ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐํ ๊ฒฐ๊ณผ์ด๋ฏ๋ก, ๋ค์ํ MLLM ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํฐ์ ์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค. ๋ํ, ํ์ค ์ธ๊ณ์ ๋ณต์กํ๊ณ ๋์ ์ธ ์ํฉ์์์ ์์ ์ฑ ๊ฒ์ฆ์ด ์ถ๊ฐ์ ์ผ๋ก ์๊ตฌ๋ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage