Sign In

End-to-end Listen, Look, Speak and Act

Created by
  • Haebom
Category
Empty

μ €μž

Siyin Wang, Wenyi Yu, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Lu Lu, Chao Zhang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μΈκ°„μ²˜λŸΌ μ‹œκ°, ν…μŠ€νŠΈ, μŒμ„±, 행동 λ“± μ—¬λŸ¬ λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό λ™μ‹œμ— μΈμ§€ν•˜κ³  생성할 수 μžˆλŠ” 졜초의 전이쀑(full-duplex) 쒅단간(end-to-end) λͺ¨λΈμΈ ELLSAλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. ν•΅μ‹¬μ—λŠ” 각 λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό μ „λ¬Έ μ „λ¬Έκ°€μ—κ²Œ λΌμš°νŒ…ν•˜κ³  톡합 주의 백본을 톡해 μœ΅ν•©ν•˜λŠ” μƒˆλ‘œμš΄ SA-MoE(Self-Attention Mixture-of-Experts) μ•„ν‚€ν…μ²˜κ°€ μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 λŒ€ν™” 및 행동 ν„΄ν…Œμ΄ν‚Ή, 잘λͺ»λœ μ§€μ‹œ κ±°λΆ€, 행동 쀑 λ°œν™” λ“± 인간과 μœ μ‚¬ν•œ μƒν˜Έμž‘μš© νŒ¨ν„΄μ„ μ‹€ν˜„ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
인간과 같은 μžμ—°μŠ€λŸ¬μš΄ μƒν˜Έμž‘μš©μ„ μœ„ν•œ 닀쀑 λͺ¨λ‹¬λ¦¬ν‹° 및 전이쀑 처리 λŠ₯λ ₯의 μ€‘μš”μ„±μ„ κ°•μ‘°ν•˜λ©°, 이λ₯Ό μ‹€ν˜„ν•  수 μžˆλŠ” μΌλ°˜ν™”λœ μ•„ν‚€ν…μ²˜λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μŒμ„±-μƒν˜Έμž‘μš© 및 λ‘œλ΄‡ μ‘°μž‘ λ²€μΉ˜λ§ˆν¬μ—μ„œ λͺ¨λ‹¬λ¦¬ν‹°λ³„ 기반 λͺ¨λΈκ³Ό λ™λ“±ν•œ μ„±λŠ₯을 λ³΄μ΄λ©΄μ„œλ„, μ΄μ „μ—λŠ” λ‹¬μ„±ν•˜κΈ° μ–΄λ €μ› λ˜ λ³΅μž‘ν•œ 닀쀑 λͺ¨λ‹¬λ¦¬ν‹° μƒν˜Έμž‘μš© μ‹œλ‚˜λ¦¬μ˜€λ₯Ό μ§€μ›ν•©λ‹ˆλ‹€.
β€’
아직 ν•΄κ²°ν•΄μ•Ό ν•  κ³Όμ œλŠ” μ œμ‹œλ˜μ§€ μ•Šμ•˜μœΌλ‚˜, μ œμ‹œλœ μ•„ν‚€ν…μ²˜μ˜ λ³΅μž‘μ„±μœΌλ‘œ 인해 λŒ€κ·œλͺ¨ ν•™μŠ΅ 및 μ—°μ‚° μžμ›μ΄ μš”κ΅¬λ  수 있으며, λ‹€μ–‘ν•œ μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ 강건성 및 ν™•μž₯μ„± 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘