haebom
Sign In
Omni-Safety under Cross-Modality Conflict: Vulnerabilities, Dynamics Mechanisms and Efficient Alignment
Created by
Haebom
Category
Empty
์ ์
Kun Wang, Zherui Li, Zhenhong Zhou, Yitong Zhang, Yan Mi, Kun Yang, Yiming Zhang, Junhao Dong, Zhongxiang Sun, Qiankun Li, Yang Liu
๐ก ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํตํฉํ๋ ์ด๋๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(OLLM)์์ ๋ฐ์ํ๋ ๊ต์ฐจ ๋ชจ๋ฌ ์์ ์ฑ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํฉ๋๋ค. ๋ชจ๋ฌ๋ฆฌํฐ-์๋ฏธ๋ก ๋ถ๋ฆฌ ์์น๊ณผ AdvBench-Omni ๋ฐ์ดํฐ์ ์ ํตํด OLLM์ ์ทจ์ฝ์ ์ ๋ฐํ๊ณ , ์ค๊ฐ์ธต ์ฉํด ํ์๊ณผ ์์ ๊ฑฐ๋ถ ๋ฐฉํฅ์ ๊ท๋ช ํฉ๋๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ ์๋ OmniSteer ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฒผ์ด ์ด๋ํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ ๊ฐ๋๋ฅผ ์กฐ์ ํจ์ผ๋ก์จ ์ ํดํ ์ ๋ ฅ์ ๋ํ ๊ฑฐ๋ถ์จ์ ํฌ๊ฒ ํฅ์์ํค๋ฉด์๋ ์ ๋ฐ์ ์ธ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ์งํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
OLLM์ ๊ต์ฐจ ๋ชจ๋ฌ ์ํธ์์ฉ์์ ์๋ก์ด ์์ ์ฑ ์ํ์ ์ผ๊ธฐํ๋ฉฐ, ์ด์ ๋ํ ์ฒด๊ณ์ ์ธ ์ดํด๊ฐ ํ์ํฉ๋๋ค.
โข
์ค๊ฐ์ธต ์ฉํด ํ์๊ณผ ์์ ๊ฑฐ๋ถ ๋ฐฉํฅ์ ๋ฐ๊ฒฌ์ OLLM์ ์์ ์ฑ ๋ฉ์ปค๋์ฆ์ ์ดํดํ๋ ๋ฐ ์ค์ํ ํต์ฐฐ์ ์ ๊ณตํฉ๋๋ค.
โข
OmniSteer๋ ํจ๊ณผ์ ์ผ๋ก OLLM์ ์์ ์ฑ์ ๊ฐํํ๋ฉด์๋ ๋ค์ค ๋ชจ๋ฌ ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ ์ค์ฉ์ ์ธ ํด๊ฒฐ์ฑ ์ ์ ์ํฉ๋๋ค.
โข
์ ์๋ AdvBench-Omni ๋ฐ์ดํฐ์ ์ ๋ฒ์์ ์๋ก์ด ๊ต์ฐจ ๋ชจ๋ฌ ๊ณต๊ฒฉ ๊ธฐ๋ฒ์ ๋ํ ์ง์์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage