Sign In

The Impact of Off-Policy Training Data on Probe Generalisation

Created by
  • Haebom
Category
Empty

μ €μž

Nathalie Kirch, Samuel Dower, Adrians Skapars, Helen Yannakoudakis, Ekdeep Singh Lubana, Dmitrii Krasheninnikov

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 우렀슀러운 행동 탐지에 ν™œμš©λ˜λŠ” ν”„λ‘œλΉ™(probing) κΈ°λ²•μ—μ„œ, μ •μ±… μ™Έ(off-policy) ν•™μŠ΅ 데이터가 ν”„λ‘œλΈŒμ˜ μΌλ°˜ν™” μ„±λŠ₯에 λ―ΈμΉ˜λŠ” 영ν–₯을 μ²΄κ³„μ μœΌλ‘œ λΆ„μ„ν•©λ‹ˆλ‹€. λ‹€μ–‘ν•œ LLM 및 8κ°€μ§€ 행동에 걸쳐 μ„ ν˜• 및 μ–΄ν…μ…˜ ν”„λ‘œλΈŒλ₯Ό μ‹€ν—˜ν•œ κ²°κ³Ό, 데이터 생성 μ „λž΅μ΄ ν”„λ‘œλΈŒ μ„±λŠ₯에 μƒλ‹Ήν•œ 영ν–₯을 미치며, 특히 응닡 "μ˜λ„"에 κΈ°λ°˜ν•œ ν–‰λ™μ—μ„œ μΌλ°˜ν™” μ‹€νŒ¨κ°€ 크게 λ‚˜νƒ€λ‚˜λŠ” 것을 λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. μ •μ±… μ™Έ 데이터가 νŠΉμ • μ‘°κ±΄μ—μ„œλŠ” 였히렀 더 μ‹ λ’°ν•  수 μžˆλŠ” ν”„λ‘œλΈŒλ₯Ό 생성할 수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ •μ±… μ™Έ ν•™μŠ΅ 데이터λ₯Ό μ‚¬μš©ν•  경우, 데이터 생성 방식이 ν”„λ‘œλΈŒμ˜ μΌλ°˜ν™” μ„±λŠ₯에 결정적인 영ν–₯을 λ―ΈμΉ  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν…μŠ€νŠΈ μˆ˜μ€€μ˜ λ‚΄μš©λ³΄λ‹€λŠ” μ‘λ‹΅μ˜ "μ˜λ„"λ₯Ό μ •μ˜ν•˜λŠ” 행동(예: μ „λž΅μ  μ†μž„μˆ˜)μ—μ„œ ν”„λ‘œλΈŒμ˜ μΌλ°˜ν™” μ‹€νŒ¨κ°€ λ‘λ“œλŸ¬μ§‘λ‹ˆλ‹€.
β€’
μ •μ±… μ™Έ 데이터셋에 λŒ€ν•œ 성곡적인 μΌλ°˜ν™”λŠ” μ •μ±… λ‚΄(on-policy) ν…ŒμŠ€νŠΈ λ°μ΄ν„°μ…‹μ—μ„œμ˜ 높은 μ„±λŠ₯을 κ°•ν•˜κ²Œ μ˜ˆμΈ‘ν•˜λŠ” μ§€ν‘œκ°€ 될 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ 연ꡬ κ²°κ³ΌλŠ” ν˜„μž¬μ˜ μ†μž„μˆ˜ 탐지 ν”„λ‘œλΈŒκ°€ μ‹€μ œ λͺ¨λ‹ˆν„°λ§ μ‹œλ‚˜λ¦¬μ˜€μ— μΌλ°˜ν™”λ˜μ§€ λͺ»ν•  κ°€λŠ₯성을 μ‹œμ‚¬ν•˜λ©°, λͺ¨λ“  μ’…λ₯˜μ˜ 뢄포 λ³€ν™”λ₯Ό μ²˜λ¦¬ν•  수 μžˆλŠ” κ°œμ„ λœ λͺ¨λ‹ˆν„°λ§ λ°©λ²•λ‘ μ˜ ν•„μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
πŸ‘