Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning Code LLMs

Created by
  • Haebom

저자

Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas

개요

본 논문은 서비스 로봇을 위한 자연어 작업을 프로그램으로 변환하는 데 유망한 결과를 보여주는 코드 LLMs(Large Language Models)에 초점을 맞추고 있습니다. 작은 규모의 특수화된 LLMs를 미세 조정하는 데 관심이 있지만, 각 로봇에 특화된 작업-프로그램 쌍 데이터셋을 수집하는 것은 시간이 많이 걸리고 비용이 많이 듭니다. SELF-INSTRUCT나 EVOL-INSTRUCT와 같은 방법은 몇 가지 예시를 통해 새로운 작업을 생성할 수 있지만, 제공된 프로그래밍 인터페이스를 사용하여 물리적 세계 및 로봇 제약 조건을 올바르게 준수하는 해당 프로그램을 제공할 수 없습니다. 시뮬레이터를 사용하는 것은 이러한 제약 조건을 확인하는 자연스러운 잠재적 해결책이지만, 임의의 작업과 필요한 객체 및 위치를 처리할 수 있는 시뮬레이션 환경을 구축하는 것은 어렵습니다. 이러한 과제를 해결하기 위해 본 논문에서는 ROBO-INSTRUCT를 제안합니다. ROBO-INSTRUCT는 프로그램 실행 중에 엔티티 속성을 기회적으로 추론하고 작업 프로그램에서 엔티티가 사용되는 방식을 기반으로 해당 제약 조건을 적용하여 작업별 시뮬레이션 환경을 즉석에서 합성합니다. 또한, ROBO-INSTRUCT는 로봇 프로그램과의 정렬을 개선하기 위해 LLM 지원 후처리 절차를 통합합니다. 여러 LLMs에서 ROBO-INSTRUCT의 효과를 보여주며, 미세 조정된 모델이 모든 기준 방법을 능가하고 심지어 몇몇 더 크고 독점적인 모델의 성능과 일치하거나 능가함을 보여줍니다.

시사점, 한계점

시사점:
작업-프로그램 쌍 데이터셋 수집의 어려움을 해결하는 효율적인 방법 제시.
작은 규모의 특수화된 LLMs를 효과적으로 미세 조정하여 대규모 모델과 경쟁력 있는 성능 달성.
실시간 시뮬레이션 환경 합성을 통해 물리적 제약 조건을 효과적으로 처리.
LLM 기반 후처리 절차를 통해 로봇 프로그램과의 정렬 향상.
한계점:
ROBO-INSTRUCT의 성능은 사용된 LLM과 시뮬레이터의 정확성에 의존적일 수 있음.
임의의 모든 작업과 객체, 위치를 완벽하게 처리하는 데는 한계가 있을 수 있음.
복잡한 작업이나 예외 상황에 대한 처리 능력에 대한 추가적인 평가가 필요함.
시뮬레이터 환경 생성 및 유지보수에 대한 비용과 시간이 소요될 수 있음.
👍