Sign In

RACC: Representation-Aware Coverage Criteria for LLM Safety Testing

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zeming Wei, Zhixin Zhang, Chengcan Wu, Yihao Zhang, Xiaokun Luan, Meng Sun

πŸ’‘ κ°œμš”

LLM의 μ•ˆμ „μ„± 검증은 ν˜„μž¬ 정적 데이터셋에 μ˜μ‘΄ν•˜λ©° ν…ŒμŠ€νŠΈ ν’ˆμ§ˆ 평가 기쀀이 λΆ€μ‘±ν•˜λ‹€λŠ” λ¬Έμ œμ μ„ κ°€μ§€κ³  μžˆμŠ΅λ‹ˆλ‹€. λ³Έ μ—°κ΅¬μ—μ„œλŠ” LLM의 μ•ˆμ „μ„± ν…ŒμŠ€νŠΈλ₯Ό μœ„ν•œ Representation-Aware Coverage Criteria (RACC)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. RACCλŠ” μœ ν•΄ ν”„λ‘¬ν”„νŠΈλ‘œ μ•ˆμ „μ„± ν‘œν˜„μ„ μΆ”μΆœν•˜κ³ , ν…ŒμŠ€νŠΈ ν”„λ‘¬ν”„νŠΈκ°€ μ΄λŸ¬ν•œ ν‘œν˜„μ„ μ–Όλ§ˆλ‚˜ ν™œμ„±ν™”ν•˜λŠ”μ§€ μΈ‘μ •ν•˜μ—¬ κ°œλ³„ 및 볡합적인 μ•ˆμ „ κ°œλ…μ˜ 컀버리지λ₯Ό ν‰κ°€ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
RACCλŠ” 기쑴의 λ‰΄λŸ° 기반 컀버리지 κΈ°μ€€κ³Ό 달리, ν…ŒμŠ€νŠΈ μŠ€μœ„νŠΈμ˜ ν’ˆμ§ˆκ³Ό 관련성을 효과적으둜 ν‰κ°€ν•˜λ©° μ€‘λ³΅λ˜κ±°λ‚˜ μœ νš¨ν•˜μ§€ μ•Šμ€ μž…λ ₯에 λ‘”κ°ν•˜λ‹€λŠ” μž₯점을 κ°€μ§‘λ‹ˆλ‹€.
β€’
LLM μ•ˆμ „μ„± ν…ŒμŠ€νŠΈ μŠ€μœ„νŠΈμ˜ μš°μ„ μˆœμœ„ μ§€μ • 및 곡격 ν”„λ‘¬ν”„νŠΈ μƒ˜ν”Œλ§ λ“± μ‹€μ œ 적용 κ°€λŠ₯성을 μž…μ¦ν•˜μ˜€μœΌλ©°, λ‹€μ–‘ν•œ ν™˜κ²½μ—μ„œ μΌλ°˜ν™”λ¨μ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.
β€’
RACCλŠ” LLM μ•ˆμ „μ„± ν…ŒμŠ€νŠΈμ— λŒ€ν•œ ν™•μž₯ κ°€λŠ₯ν•˜κ³  원칙적인 컀버리지 기반 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
RACC의 νš¨κ³ΌλŠ” LLM의 λ‚΄λΆ€ μž‘λ™ 방식에 λŒ€ν•œ 이해와 μ•ˆμ „μ„± ν‘œν˜„ μΆ”μΆœμ˜ 정ꡐ함에 따라 λ‹¬λΌμ§ˆ 수 있으며, μƒˆλ‘œμš΄ μœ ν˜•μ˜ 곡격에 λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯은 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘