Sign In

Principled Detection of Hallucinations in Large Language Models via Multiple Testing

Created by
  • Haebom
Category
Empty

μ €μž

Jiawei Li, Akshayaa Magesh, Venugopal V. Veeravalli

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 λΆ€μ •ν™•ν•˜κ±°λ‚˜ λ¬΄μ˜λ―Έν•œ 응닡인 'ν™˜κ°' 탐지 문제λ₯Ό κ°€μ„€ κ²€μ • 문제둜 μž¬μ •μ˜ν•©λ‹ˆλ‹€. μ œμ•ˆλœ 닀쀑 κ²€μ • 기반 방법둠은 μ—¬λŸ¬ 평가 점수λ₯Ό λ³΄μ •λœ p-κ°’(conformal p-values)을 톡해 μ²΄κ³„μ μœΌλ‘œ ν†΅ν•©ν•˜μ—¬, ν™˜κ° νƒμ§€μ˜ κ±°μ§“ κ²½λ³΄μœ¨μ„ μ œμ–΄ν•˜λ©΄μ„œλ„ λ³΄μ •λœ 탐지λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€. λ‹€μ–‘ν•œ λͺ¨λΈκ³Ό 데이터셋에 λŒ€ν•œ κ΄‘λ²”μœ„ν•œ μ‹€ν—˜μ—μ„œ μ œμ•ˆλœ 방법이 μ΅œμ‹  κΈ°μˆ λ³΄λ‹€ 강건함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM ν™˜κ° 탐지 문제λ₯Ό ν™•λ₯ μ μ΄κ³  원칙적인 ν‹€ μ•ˆμ—μ„œ μ ‘κ·Όν•˜μ—¬ μ‹ λ’°μ„± μžˆλŠ” 탐지 방법둠 개발의 κΈ°λ°˜μ„ λ§ˆλ ¨ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
기쑴의 λ‹€μ–‘ν•œ κ²½ν—˜μ  ν™˜κ° 탐지 점수 κ·œμΉ™λ“€μ„ λ³΄μ •λœ p-κ°’μœΌλ‘œ ν†΅ν•©ν•¨μœΌλ‘œμ¨, νŠΉμ • λͺ¨λΈμ΄λ‚˜ 데이터셋에 의쑴적인 νƒμ§€κΈ°μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³  μ‹€μš©μ„±μ„ λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법은 λ‹€μ–‘ν•œ LLMκ³Ό 데이터셋에 걸쳐 μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μœΌλ‚˜, 계산 λ³΅μž‘μ„± μ¦κ°€λ‚˜ μ‹€μ œ μ‹œμŠ€ν…œμ— 적용 μ‹œ λ°œμƒν•  수 μžˆλŠ” μ„±λŠ₯ μ €ν•˜ λ“± 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘