haebom
Sign In
ForeAct: Steering Your VLA with Efficient Visual Foresight Planning
Created by
Haebom
Category
Empty
μ μ
Zhuoyang Zhang, Shang Yang, Qinghao Hu, Luke J. Huang, James Hou, Yufei Sun, Yao Lu, Song Han
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λμ μμ€μ μΈμ΄ λͺ λ Ήμ μ€μ μ€ν κ°λ₯ν νλμΌλ‘ λ³ννλ Vision-Language-Action (VLA) λͺ¨λΈμ κ°λ°©ν νκ²½μμμ μ΄λ €μμ ν΄κ²°νκΈ° μν΄ Visual Foresight Planning (ForeAct)μ΄λΌλ ν¨μ¨μ μΈ κ³νμλ₯Ό μ μν©λλ€. ForeActλ λ―Έλμ κ°μ κ΄μΈ‘κ³Ό νμ μμ μ€λͺ μ ν΅ν΄ VLA λͺ¨λΈμ λ¨κ³λ³λ‘ μλ΄νμ¬, VLAκ° μκ°-μ΄λ μΆλ‘ μ μ§μ€νλλ‘ ν¨μΌλ‘μ¨ μ νλμ μΌλ°ν μ±λ₯μ ν₯μμν΅λλ€.
π μμ¬μ λ° νκ³
β’
ν΅μ¬ μμ¬μ 1:
ForeActλ κ³ νμ§μ λ―Έλ κ°μ κ΄μΈ‘μ ν¨μ¨μ μΌλ‘ μμ±νμ¬ VLA λͺ¨λΈμ΄ 볡μ‘ν νκ²½μμ λ λμ μμ¬κ²°μ μ λ΄λ¦΄ μ μλλ‘ μ§μν©λλ€.
β’
ν΅μ¬ μμ¬μ 2:
μ μλ κ³νμλ κΈ°μ‘΄ VLA λͺ¨λΈμ μν€ν μ² μμ μμ΄ μκ°μ μ λ ₯λ§ μΆκ°νλ λ°©μμΌλ‘ μ½κ² ν΅ν©λ μ μμ΄ λ²μ©μ±κ³Ό μ μ©μ±μ΄ λμ΅λλ€.
β’
νκ³μ λλ ν₯ν κ³Όμ :
ForeActλ 11κ°μ§ λ€μν μ€μ μμ μΌλ‘ ꡬμ±λ λ²€μΉλ§ν¬μμ λ°μ΄λ μ±λ₯μ 보μμ§λ§, λ λμ λ²μμ 볡μ‘νκ³ μ₯κΈ°μ μΈ λͺ©νλ₯Ό κ°μ§ μλ리μ€μ λν νμ₯μ± λ° ν¨μ¨μ± κ°μ μ΄ νμν©λλ€.
PDF 보기
Made with Slashpage