Sign In

Cross-Family Universality of Behavioral Axes via Anchor-Projected Representations

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Su-Hyeon Kim, Yo-Sub Han

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ„œλ‘œ λ‹€λ₯Έ λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ(LLM) κ°„μ˜ 행동 λ°©ν–₯(behavioral directions)을 λΉ„κ΅ν•˜κ³  μ „μ΄ν•˜λŠ” 데 λ°œμƒν•˜λŠ” 어렀움을 ν•΄κ²°ν•˜κΈ° μœ„ν•΄, 각 λͺ¨λΈμ˜ 은닉 ν‘œν˜„(hidden representations)을 곡유된 액컀 μ’Œν‘œ 곡간(Anchor Coordinate Space, ACS)으둜 λ§€ν•‘ν•˜λŠ” 액컀-ν”„λ‘œμ μ…˜(anchor-projection) ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법둠을 톡해 λ‹€μ–‘ν•œ λͺ¨λΈ κ³„μ—΄μ—μ„œ μΆ”μΆœλœ 행동 λ°©ν–₯을 ACS에 νˆ¬μ˜ν•˜κ³  ν‰κ· ν™”ν•˜μ—¬ ν‘œμ€€ν™”λœ λ°©ν–₯(canonical direction)을 μƒμ„±ν•˜λ©°, μ΄λŠ” μƒˆλ‘œμš΄ λͺ¨λΈμ—μ„œλ„ νŒŒμΈνŠœλ‹ 없이 μž¬κ΅¬μ„±λ˜μ–΄ 전이될 수 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 Llama, Qwen, Mistral, Phi λͺ¨λΈ κ³„μ—΄μ—μ„œ 10κ°€μ§€ 행동 좕에 λŒ€ν•œ λ°©ν–₯성이 ACSμ—μ„œ κ°•ν•˜κ²Œ μΌμΉ˜ν•¨μ„ λ°œκ²¬ν–ˆμœΌλ©°, μ΄λŠ” λ‹€μš΄μŠ€νŠΈλ¦Ό νƒœμŠ€ν¬μ—μ„œλ„ μ„±κ³΅μ μœΌλ‘œ 전이됨을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λͺ¨λΈ 계열 κ°„ 행동 λ°©ν–₯의 λ³΄νŽΈμ„± 발견: μ„œλ‘œ λ‹€λ₯Έ LLM κ³„μ—΄μ—μ„œλ„ νŠΉμ • 행동 λ°©ν–₯이 곡유될 수 μžˆμŒμ„ μ œμ‹œν•˜λ©°, μ΄λŠ” λͺ¨λΈ 해석 κ°€λŠ₯μ„± 및 전이 ν•™μŠ΅ 뢄야에 μ€‘μš”ν•œ μ‹œμ‚¬μ μ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
효율적인 λ°©ν–₯ 전이 방법둠 μ œμ‹œ: 액컀-ν”„λ‘œμ μ…˜ ν”„λ ˆμž„μ›Œν¬λŠ” νŒŒμΈνŠœλ‹μ΄λ‚˜ λͺ¨λΈλ³„ 좔가적인 λ°©ν–₯ μΆ”μΆœ 없이도 행동 λ°©ν–₯을 효과적으둜 전이할 수 μžˆλŠ” μƒˆλ‘œμš΄ 방법을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
액컀 ν’€ 및 μ†ŒμŠ€ λͺ¨λΈ 수의 μ€‘μš”μ„±: 액컀 ν’€μ˜ 크기와 μ†ŒμŠ€ λͺ¨λΈμ˜ μˆ˜κ°€ 전이 κ°€λŠ₯ν•œ λ°©ν–₯을 κ·Όμ‚¬ν•˜λŠ” 데 μ–Όλ§ˆλ‚˜ μ€‘μš”ν•œμ§€μ— λŒ€ν•œ 민감도 뢄석을 μˆ˜ν–‰ν–ˆμœΌλ©°, 적은 μˆ˜λ‘œλ„ μΆ©λΆ„νžˆ 근사할 수 μžˆμŒμ„ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.
β€’
ν•œκ³„μ /ν–₯ν›„ 과제: μ œμ•ˆλœ 방법둠이 λͺ¨λ“  행동 μΆ• λ˜λŠ” λͺ¨λ“  λͺ¨λΈ κ³„μ—΄μ—μ„œ λ™μΌν•œ μˆ˜μ€€μ˜ λ³΄νŽΈμ„±μ„ 보일지에 λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•˜λ©°, ACSμ—μ„œμ˜ 정렬이 μ‹€μ œ μ‘μš© ν”„λ‘œκ·Έλž¨μ—μ„œμ˜ λ³΅μž‘ν•œ 행동을 μ–Όλ§ˆλ‚˜ 잘 포착할 수 μžˆλŠ”μ§€μ— λŒ€ν•œ 심측적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘