haebom
Sign In
REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Buyun Liang, Jinqi Luo, Liangzu Peng, Kwan Ho Ryan Chan, Darshan Thaker, Kaleab A. Kinfu, Fengrui Tian, Hamed Hassani, Ren
e Vidal
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ๊ฐ(hallucination) ํ์์ ์ ๋ฐํ๋ ํ์ค์ ์ธ ์ ๋์ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ก ์ธ REALISTA๋ฅผ ์ ์ํฉ๋๋ค. REALISTA๋ ๊ธฐ์กด ์ด์ฐ์ ํ๋กฌํํธ ๊ณต๊ฒฉ์ ์ ํ๋ ํ์ ๊ณต๊ฐ๊ณผ ์ฐ์์ ์ ์ฌ ๊ณต๊ฐ ๊ณต๊ฒฉ์ ๋นํ์ค์ ์ธ ๊ฒฐ๊ณผ๋ผ๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ์ ๋ ฅ์ ์์กดํ๋ ์ ํจํ ํธ์ง ๋ฐฉํฅ ์ฌ์ ๊ณผ ์ ์ฌ ๊ณต๊ฐ์์์ ์ต์ ํ๋ฅผ ๊ฒฐํฉํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ REALISTA๋ ๊ธฐ์กด ์ต์ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ ๋๋น ์ฐ์ํ๊ฑฐ๋ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ํนํ ๊ธฐ์กด ํ์ค์ ๊ณต๊ฒฉ์ด ์คํจํ๋ ์์ ํ์ ์๋ต ์ค์ ์์ ๋ํ ์ถ๋ก ๋ชจ๋ธ์ ์ฑ๊ณต์ ์ผ๋ก ๊ณต๊ฒฉํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LLM์ ํ๊ฐ์ ์ ๋ฐํ๋ ํ์ค์ ์ด๊ณ ํจ๊ณผ์ ์ธ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์ฌ LLM์ ์ ๋ขฐ์ฑ ํ๊ฐ์ ๊ธฐ์ฌํฉ๋๋ค.
โข
๊ธฐ์กด ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ก ์ ๋จ์ ์ ๋ณด์ํ์ฌ, ์๋ฏธ๋ก ์ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉด์๋ ๋ค์ํ ํ์์ด ๊ฐ๋ฅํ ์๋ก์ด ๊ณต๊ฒฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
โข
ํ์ฌ๊น์ง ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ด ํน์ LLM ์ํคํ ์ฒ๋ ๋ฐ์ดํฐ์ ์ ํธํฅ๋ ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฉฐ, ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ์ ๋์ฑ ๋์ด๊ธฐ ์ํ ์ต์ ํ ๊ธฐ๋ฒ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage