haebom
Sign In
When LLMs get significantly worse: A statistical approach to detect model degradations
Created by
Haebom
Category
Empty
μ μ
Jonas K
ubler, Kailash Budhathoki, Matth
aus Kleindessner, Xiong Zhou, Junming Yin, Ashish Khetan, George Karypis
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κ±°λ μΈμ΄ λͺ¨λΈ(LLM)μ μΆλ‘ λΉμ© λ° μ§μ° μκ° κ°μλ₯Ό μν μ΅μ ν κ³Όμ μμ λͺ¨λΈ νμ§ μ νλ₯Ό νμ§νλ ν΅κ³μ μ κ·Όλ²μ μ μν©λλ€. μ μλ λ°©λ²λ‘ μ McNemar κ²μ μ κΈ°λ°ν κ°μ€ κ²μ νλ μμν¬λ₯Ό νμ©νμ¬, κ°λ³ μνμ λͺ¨λΈ μ μλ₯Ό λΉκ΅ν¨μΌλ‘μ¨ μ€μ λͺ¨λΈ μ±λ₯ μ νλ₯Ό ν¨κ³Όμ μΌλ‘ κ°μ§νκ³ μλͺ»λ μμ±(false positive)μ μ μ΄ν©λλ€. μ°κ΅¬ κ²°κ³Ό, 0.3% μμ€μ λ―Έλ―Έν μ νλ μ νλ μ€μ λͺ¨λΈ μ±λ₯ μ νλ‘ μμ μκ² νλ³ν μ μμμ μ μ¦νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
LLM μ΅μ ν μ λͺ¨λΈ μ±λ₯ μ νλ₯Ό ν΅κ³μ μΌλ‘ μ μλ―Ένκ² νμ§νλ νλ μμν¬λ₯Ό μ 곡ν©λλ€.
β’
κ°λ³ μν λ¨μμ λΉκ΅λ₯Ό ν΅ν΄ λ―ΈμΈν μ±λ₯ μ νλ ν¬μ°© κ°λ₯ν¨μ 보μ¬μ€λλ€.
β’
μ΄λ‘ μ μΌλ‘ 무μμ€ μ΅μ νκ° μ€μ λ‘ λͺ¨λΈ μ±λ₯μ μ νμν€λμ§ μ¬λΆλ₯Ό κ°κ΄μ μΌλ‘ νλ¨νλ κΈ°μ€μ μ μν©λλ€.
β’
λ€μν λ²€μΉλ§ν¬μ κ²°κ³Όλ₯Ό λ¨μΌ κ²°μ μΌλ‘ ν΅ν©νλ λ°©λ²μ μ μν©λλ€.
β’
μ μλ λ°©λ²λ‘ μ νΉμ ν΅κ³μ κ°μ μ κΈ°λ°νλ―λ‘, 볡μ‘νκ±°λ λΉμ νμ μΈ μ±λ₯ λ³ν ν¨ν΄μλ μ μ©μ΄ μ νλ μ μμ΅λλ€.
PDF 보기
Made with Slashpage