Sign In

Attention Dispersion in Dynamic Graph Transformers: Diagnosis and a Transferable Fix

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Jinhao Zhang, Kangfei Zhao, Qiuhao Zeng, Long-Kai Huang

πŸ’‘ κ°œμš”

λ³Έ 논문은 동적 κ·Έλž˜ν”„ ν•™μŠ΅μ„ μœ„ν•œ 트랜슀포머 λͺ¨λΈμ΄ μ‹œκ°„μ  뢄포 λ³€ν™”κ°€ μžˆλŠ” λ°μ΄ν„°μ…‹μ—μ„œ μ„±λŠ₯이 μ €ν•˜λ˜λŠ” ν˜„μƒμ„ 'μ–΄ν…μ…˜ λΆ„μ‚°(attention dispersion)'μ΄λΌλŠ” 문제점으둜 μ§„λ‹¨ν•©λ‹ˆλ‹€. 연ꡬ진은 μ΄λŸ¬ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 기쑴의 μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ„ 'μ°¨λΆ„ μ–΄ν…μ…˜(differential attention)'으둜 λŒ€μ²΄ν•˜λŠ” 방법을 μ œμ•ˆν–ˆμœΌλ©°, μ΄λŠ” μ„Έ κ°€μ§€ λŒ€ν‘œμ μΈ CTDG 트랜슀포머 λͺ¨λΈμ— μ μš©ν•˜μ—¬ μΌκ΄€λœ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€. 특히 μ‹œκ°„μ  뢄포 λ³€ν™”κ°€ 큰 λ°μ΄ν„°μ…‹μ—μ„œ μƒλ‹Ήν•œ κ°œμ„  효과λ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹œκ°„μ  뢄포 λ³€ν™”λŠ” 동적 κ·Έλž˜ν”„ 트랜슀포머 λͺ¨λΈμ˜ μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ„ μ•½ν™”μ‹œμΌœ μ„±λŠ₯ μ €ν•˜λ₯Ό μ•ΌκΈ°ν•˜λŠ” μ£Όμš” μ›μΈμž…λ‹ˆλ‹€.
β€’
μ°¨λΆ„ μ–΄ν…μ…˜μ€ μ–΄ν…μ…˜ 뢄산을 μ–΅μ œν•˜κ³  핡심 λ…Έλ“œμ˜ μ‹ ν˜Έλ₯Ό μ¦ν­μ‹œμΌœ 동적 κ·Έλž˜ν”„ ν•™μŠ΅μ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” 효과적인 λ°©λ²•μž…λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ°¨λΆ„ μ–΄ν…μ…˜μ€ κΈ°μ‘΄ λͺ¨λΈμ— μ‰½κ²Œ 톡합될 수 있으며, 특히 뢄포 λ³€ν™”κ°€ 큰 λ°μ΄ν„°μ…‹μ—μ„œ νš¨κ³Όμ μž…λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” λ‹€μ–‘ν•œ 동적 κ·Έλž˜ν”„ ν•™μŠ΅ μ‹œλ‚˜λ¦¬μ˜€μ™€ λͺ¨λΈ μ•„ν‚€ν…μ²˜μ— μ°¨λΆ„ μ–΄ν…μ…˜μ„ μ μš©ν•˜κ³  κ·Έ 효과λ₯Ό μ‹¬μΈ΅μ μœΌλ‘œ 뢄석할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘