λ³Έ λ
Όλ¬Έμ μ μ μμ μμ°λ§μΌλ‘λ μλ‘μ΄ μμ
μ Vision-Language-Action (VLA) λͺ¨λΈμ μ λ’°μ± μκ² μ μ©νλ λ¬Έμ λ₯Ό ν΄κ²°νκ³ μ ν©λλ€. VGAS(Value-Guided Action-Chunk Selection)λ μλ―Έμ μΌλ‘ μ ννκ³ κΈ°ννμ μΌλ‘ μ λ°ν νλ λ©μ΄λ¦¬(action chunk)λ₯Ό μ ννλ μλ‘μ΄ νλ μμν¬λ₯Ό μ μν©λλ€. VGASλ μ μ μμ±κΈ°μ κΈ°ννμ μΌλ‘ κ·Όκ±° μλ λΉνκ°(Q-Chunk-Former)λ₯Ό μ¬μ©νμ¬ λ―ΈμΈν κΈ°ννμ λͺ¨νΈμ±μ ν΄κ²°νλ©°, νΉν μ νλ μ§λ νμ΅ νκ²½μμ νλ μμμ ν΄μλλ₯Ό μ μ§νκ³ κ°μ λΆμμ μ±μ μννλ λͺ
μμ κΈ°ννμ μ κ·ν(EGR)λ₯Ό λμ
ν©λλ€.