Sign In

Soft Contamination Means Benchmarks Test Shallow Generalization

Created by
  • Haebom
Category
Empty

μ €μž

Ari Spiesberger, Juan J. Vazquez, Nicky Pochinkov, Toma\v{s} Gaven\v{c}iak, Peli Grietzer, Gavin Leech, Nandi Schoots

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) ν›ˆλ ¨ 데이터에 벀치마크 ν…ŒμŠ€νŠΈ 데이터가 λ―Έλ¬˜ν•˜κ²Œ ν¬ν•¨λ˜λŠ” 'μ†Œν”„νŠΈ μ˜€μ—Ό' ν˜„μƒμ΄ 외적 μΌλ°˜ν™”(OOD generalization) μ„±λŠ₯ 평가λ₯Ό μ™œκ³‘ν•¨μ„ μ§€μ ν•©λ‹ˆλ‹€. 기쑴의 n-그램 기반 제거 방식이 의미적으둜 λ™λ“±ν•˜μ§€λ§Œ λ¬Έμžμ—΄μƒμœΌλ‘œλŠ” μœ μ‚¬ν•˜μ§€ μ•Šμ€ 데이터λ₯Ό νƒμ§€ν•˜μ§€ λͺ»ν•˜λŠ” ν•œκ³„λ₯Ό νŒŒμ•…ν•˜κ³ , 의미 쀑볡(semantic duplicates)을 ν†΅ν•œ ν›ˆλ ¨ λ°μ΄ν„°μ˜ μ†Œν”„νŠΈ μ˜€μ—Όμ„ λΆ„μ„ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, ν›ˆλ ¨ μ½”νΌμŠ€μ— 의미 쀑볡이 κ΄‘λ²”μœ„ν•˜κ²Œ μ‘΄μž¬ν•˜λ©°, μ΄λŸ¬ν•œ 쀑볡 데이터λ₯Ό ν›ˆλ ¨μ— ν¬ν•¨μ‹œν‚€λ©΄ 벀치마크 μ„±λŠ₯이 ν–₯μƒλ˜κ³ , μ§„μ •ν•œ 의미의 μ™ΈλΆ€ λ°μ΄ν„°μ…‹μ—μ„œλ„ μ„±λŠ₯이 κ°œμ„ λ¨μ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
벀치마크 μ„±λŠ₯ ν–₯상이 μ‹€μ œ LLM의 μΌλ°˜ν™” λŠ₯λ ₯ κ°œμ„ λ³΄λ‹€λŠ” ν›ˆλ ¨ 데이터에 ν¬ν•¨λœ 벀치마크 데이터 자체의 영ν–₯으둜 κ³ΌλŒ€ν‰κ°€λ  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
기쑴의 ν…μŠ€νŠΈ μœ μ‚¬λ„ 기반 데이터 μ •μ œ 기법은 의미 쀑볡을 νƒμ§€ν•˜λŠ” 데 ν•œκ³„κ°€ μžˆμ–΄, LLM의 μΌλ°˜ν™” λŠ₯λ ₯ 평가에 λŒ€ν•œ 신뒰도λ₯Ό μ €ν•˜μ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ LLM의 μ§„μ •ν•œ 외적 μΌλ°˜ν™” μ„±λŠ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•΄μ„œλŠ” 의미적 μœ μ‚¬μ„±μ„ κ³ λ €ν•œ μ •κ΅ν•œ 데이터 μ˜€μ—Ό 탐지 및 제거 기법 개발이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘