Sign In

Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Qinghua Mao, Xi Lin, Jinze Gu, Jun Wu, Siyuan Li, Yuliang Chen

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 지식 νŽΈμ§‘μ΄ LLM의 μ•ˆμ „μ„±μ— λ―ΈμΉ˜λŠ” μœ„ν—˜μ„ μ²΄κ³„μ μœΌλ‘œ ν‰κ°€ν•˜κΈ° μœ„ν•œ 벀치마크인 EditRisk-Benchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. κΈ°μ‘΄ λ²€μΉ˜λ§ˆν¬μ™€ 달리, EditRisk-BenchλŠ” μ•…μ˜μ μΈ 지식 μ£Όμž…μ΄ λ‹€μš΄μŠ€νŠΈλ¦Ό μΆ”λ‘  행동과 신뒰성에 λ―ΈμΉ˜λŠ” 영ν–₯을 ν‰κ°€ν•˜λŠ” 데 쀑점을 λ‘‘λ‹ˆλ‹€. 이λ₯Ό 톡해 μ•…μ˜μ μΈ 지식 νŽΈμ§‘μ΄ LLM의 μ •ν™•μ„± 및 μ•ˆμ „μ„± μ €ν•˜λ₯Ό μœ λ°œν•  수 있으며, μ΄λŠ” νƒμ§€ν•˜κΈ° μ–΄λ ΅λ‹€λŠ” 것을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
지식 νŽΈμ§‘μ˜ μœ μ—°μ„±μ΄ LLM의 μ•ˆμ „μ„± μœ„ν—˜μ„ μ¦κ°€μ‹œν‚¬ 수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
μ•…μ˜μ μΈ 지식 νŽΈμ§‘μ€ LLM의 일반적인 λŠ₯λ ₯을 μœ μ§€ν•˜λ©΄μ„œλ„ 잘λͺ»λ˜κ±°λ‚˜ μ•ˆμ „ν•˜μ§€ μ•Šμ€ 좔둠을 μœ λ°œν•  수 μžˆμ–΄ 탐지가 μ–΄λ ΅μŠ΅λ‹ˆλ‹€.
β€’
EditRisk-BenchλŠ” ν–₯ν›„ LLM의 지식 νŽΈμ§‘ μ•ˆμ „μ„±μ„ μ΄ν•΄ν•˜κ³  μ™„ν™”ν•˜κΈ° μœ„ν•œ μ€‘μš”ν•œ ν…ŒμŠ€νŠΈλ² λ“œλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
EditRisk-BenchλŠ” λ‹€μ–‘ν•œ μ•…μ˜μ  μ‹œλ‚˜λ¦¬μ˜€, 닀단계 μΆ”λ‘  과제, λŒ€ν‘œμ μΈ νŽΈμ§‘ μ „λž΅μ„ ν†΅ν•©ν•˜μ—¬ 포괄적인 평가λ₯Ό μ œκ³΅ν•˜μ§€λ§Œ, ν˜„μ‹€ μ„Έκ³„μ˜ λͺ¨λ“  κ°€λŠ₯ν•œ μ•…μ˜μ  곡격을 ν¬κ΄„ν•˜μ§€λŠ” λͺ»ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘