Daily Arxiv

μ „ μ„Έκ³„μ—μ„œ λ°œκ°„λ˜λŠ” 인곡지λŠ₯ κ΄€λ ¨ 논문을 μ •λ¦¬ν•˜λŠ” νŽ˜μ΄μ§€ μž…λ‹ˆλ‹€.
λ³Έ νŽ˜μ΄μ§€λŠ” Google Geminiλ₯Ό ν™œμš©ν•΄ μš”μ•½ μ •λ¦¬ν•˜λ©°, λΉ„μ˜λ¦¬λ‘œ 운영 λ©λ‹ˆλ‹€.
논문에 λŒ€ν•œ μ €μž‘κΆŒμ€ μ €μž 및 ν•΄λ‹Ή 기관에 있으며, 곡유 μ‹œ 좜처만 λͺ…κΈ°ν•˜λ©΄ λ©λ‹ˆλ‹€.

Gap-K%: Measuring Top-1 Prediction Gap for Detecting Pretraining Data

Created by
  • Haebom
Category
Empty

μ €μž

Minseo Kwak, Jaehyung Kim

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) 사전 ν•™μŠ΅μ— μ‚¬μš©λœ λ°μ΄ν„°μ˜ 뢈투λͺ…성은 ν”„λΌμ΄λ²„μ‹œ 및 μ €μž‘κΆŒ 문제λ₯Ό μ•ΌκΈ°ν•˜μ—¬ 데이터 탐지λ₯Ό μ€‘μš”ν•˜κ²Œ λ§Œλ“­λ‹ˆλ‹€. κΈ°μ‘΄ 방식은 토큰 ν™•λ₯ μ— μ˜μ‘΄ν•˜μ§€λ§Œ, λͺ¨λΈμ˜ μ΅œμƒμœ„ 예츑과의 괴리와 κ΅­μ†Œμ  상관관계λ₯Ό κ°„κ³Όν•˜λŠ” κ²½μš°κ°€ λ§ŽμŠ΅λ‹ˆλ‹€. λ³Έ μ—°κ΅¬λŠ” LLM 사전 ν•™μŠ΅μ˜ μ΅œμ ν™” 역학을 기반으둜 ν•˜λŠ” μƒˆλ‘œμš΄ 데이터 탐지 방법인 Gap-K%λ₯Ό μ œμ•ˆν•˜λ©°, μ΅œμƒμœ„ 예츑 토큰과 μ‹€μ œ 토큰 κ°„μ˜ 둜그 ν™•λ₯  차이λ₯Ό ν™œμš©ν•˜κ³  μŠ¬λΌμ΄λ”© μœˆλ„μš°λ₯Ό 톡해 κ΅­μ†Œμ  상관관계λ₯Ό ν¬μ°©ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
Gap-K%λŠ” LLM 사전 ν•™μŠ΅ κ³Όμ •μ˜ μ΅œμ ν™” 동역학을 ν™œμš©ν•˜μ—¬ κΈ°μ‘΄ λ°©λ²•λ‘ μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³  데이터 탐지 μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법은 λͺ¨λΈμ˜ μ΅œμƒμœ„ 예츑과의 괴리λ₯Ό μ§μ ‘μ μœΌλ‘œ μΈ‘μ •ν•¨μœΌλ‘œμ¨ 사전 ν•™μŠ΅ λ°μ΄ν„°μ˜ 쑴재 μ—¬λΆ€λ₯Ό 효과적으둜 탐지할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
κ΅­μ†Œμ  상관관계 포착 및 토큰 μˆ˜μ€€μ˜ 변동 μ™„ν™”λ₯Ό 톡해 λ‹€μ–‘ν•œ λͺ¨λΈ 크기와 μž…λ ₯ 길이에 걸쳐 μ•ˆμ •μ μΈ μ„±λŠ₯을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ˜ κ²°κ³ΌλŠ” LLM 사전 ν•™μŠ΅ λ°μ΄ν„°μ˜ 투λͺ…성을 높이고 ν”„λΌμ΄λ²„μ‹œ 및 μ €μž‘κΆŒ κ΄€λ ¨ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” 데 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제) λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 사전 ν•™μŠ΅ λͺ©ν‘œμ— λŒ€ν•œ Gap-K%의 μΌλ°˜ν™” μ„±λŠ₯ 검증이 ν•„μš”ν•˜λ©°, 탐지 속도 및 계산 νš¨μœ¨μ„± κ°œμ„ μ— λŒ€ν•œ 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘