haebom
Sign In
Less Is More: Fast and Accurate Reasoning with Cross-Head Unified Sparse Attention
Created by
Haebom
Category
Empty
μ μ
Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΆλ‘ λͺ¨λΈμ ν μ€νΈ μκ° μ€μΌμΌλ§μΌλ‘ μΈν λμ μ°μ° μ€λ²ν€λλ₯Ό ν΄κ²°νκΈ° μν΄ "LessIsMore"λΌλ νλ ¨-μλ ν¬μ μ΄ν μ λ©μ»€λμ¦μ μ μν©λλ€. μ΄ λ°©λ²μ μΆλ‘ μ ν ν° μ€μλκ° μ¬λ¬ μ΄ν μ ν€λμ κ±Έμ³ λ³΄νΈμ μ΄κ³ μμ μ μ΄λΌλ ν΅μ°°μ λ°νμΌλ‘, ν€λ κ° ν΅μΌλ ν ν° μ νκ³Ό μ΅κ·Ό 컨ν μ€νΈ 보쑴μ ν΅ν΄ μ μμ μΌλ‘ μΌκ΄λ ν ν° μ§ν©μ ꡬμΆν©λλ€. μ΄λ₯Ό ν΅ν΄ μ νλλ₯Ό μ μ§νκ±°λ ν₯μμν€λ©΄μλ ν¨μ¬ μ μ μμ ν ν°μ μ£Όμλ₯Ό κΈ°μΈμ¬ μΆλ‘ μλλ₯Ό ν¬κ² κ°μ ν©λλ€.
π μμ¬μ λ° νκ³
β’
κΈ°μ‘΄ ν¬μ μ΄ν μ λ°©μμ μ νλ μ ν λ¬Έμ λ₯Ό 극볡νλ©°, νλ ¨ μμ΄λ μ±λ₯ ν₯μμ λ¬μ±ν©λλ€.
β’
μΆλ‘ κ³Όμ μ λ°μ κ±Έμ³ μ€μν ν ν° μ νμ΄ μ μμ μΌλ‘ μΌκ΄λκ² μ μ§λ μ μμμ μ μ¦ν©λλ€.
β’
μ₯κΈ° μΆλ‘ μμ λͺ¨λΈμ ν¨μ¨μ±κ³Ό μ νλλ₯Ό λμμ κ°μ ν μ μλ μλ‘μ΄ λ°©μμ μ μν©λλ€.
β’
λ³Έ μ°κ΅¬μμ μ μλ ν ν° μ€μλμ 'μμ μ±' κ°μ μ΄ λͺ¨λ μ’ λ₯μ μΆλ‘ μμ μ΄λ λͺ¨λΈ μν€ν μ²μ λν΄ νμ μ ν¨νμ§μ λν μΆκ°μ μΈ κ²μ¦μ΄ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage