haebom
Sign In
Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Qinghua Mao, Xi Lin, Jinze Gu, Jun Wu, Siyuan Li, Yuliang Chen
π‘ κ°μ
λ³Έ μ°κ΅¬λ μ§μ νΈμ§μ΄ LLMμ μμ μ±μ λ―ΈμΉλ μνμ 체κ³μ μΌλ‘ νκ°νκΈ° μν λ²€μΉλ§ν¬μΈ EditRisk-Benchλ₯Ό μ μν©λλ€. κΈ°μ‘΄ λ²€μΉλ§ν¬μ λ¬λ¦¬, EditRisk-Benchλ μ μμ μΈ μ§μ μ£Όμ μ΄ λ€μ΄μ€νΈλ¦Ό μΆλ‘ νλκ³Ό μ λ’°μ±μ λ―ΈμΉλ μν₯μ νκ°νλ λ° μ€μ μ λ‘λλ€. μ΄λ₯Ό ν΅ν΄ μ μμ μΈ μ§μ νΈμ§μ΄ LLMμ μ νμ± λ° μμ μ± μ νλ₯Ό μ λ°ν μ μμΌλ©°, μ΄λ νμ§νκΈ° μ΄λ ΅λ€λ κ²μ μ μ¦νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
μ§μ νΈμ§μ μ μ°μ±μ΄ LLMμ μμ μ± μνμ μ¦κ°μν¬ μ μμμ μμ¬ν©λλ€.
β’
μ μμ μΈ μ§μ νΈμ§μ LLMμ μΌλ°μ μΈ λ₯λ ₯μ μ μ§νλ©΄μλ μλͺ»λκ±°λ μμ νμ§ μμ μΆλ‘ μ μ λ°ν μ μμ΄ νμ§κ° μ΄λ ΅μ΅λλ€.
β’
EditRisk-Benchλ ν₯ν LLMμ μ§μ νΈμ§ μμ μ±μ μ΄ν΄νκ³ μννκΈ° μν μ€μν ν μ€νΈλ² λλ₯Ό μ 곡ν©λλ€.
β’
EditRisk-Benchλ λ€μν μ μμ μλ리μ€, λ€λ¨κ³ μΆλ‘ κ³Όμ , λνμ μΈ νΈμ§ μ λ΅μ ν΅ν©νμ¬ ν¬κ΄μ μΈ νκ°λ₯Ό μ 곡νμ§λ§, νμ€ μΈκ³μ λͺ¨λ κ°λ₯ν μ μμ 곡격μ ν¬κ΄νμ§λ λͺ»ν μ μμ΅λλ€.
PDF 보기
Made with Slashpage