Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Boosting Universal LLM Reward Design through the Heuristic Reward Observation Space Evolution

Created by
  • Haebom

저자

Zen Kit Heng, Zimeng Zhao, Tianhao Wu, Yuanfei Wang, Mingdong Wu, Yangang Wang, Hao Dong

개요

대규모 언어 모델(LLM)은 상식 추론 및 코드 생성 능력이 뛰어나 자동 강화 학습(RL) 보상 설계에 유망한 도구로 떠오르고 있습니다. LLM은 RL 에이전트와 대화를 통해 관련 환경 상태를 선택하고 내부 연산을 정의하여 보상 관찰 공간(ROS)을 구성합니다. 하지만 기존 프레임워크는 이 공간을 반복적으로 발전시키기 위해 과거 탐색 데이터나 수동 작업 설명을 효과적으로 활용하지 못했습니다. 본 논문에서는 테이블 기반 탐색 캐싱 메커니즘과 텍스트-코드 조정 전략을 통해 ROS를 발전시킴으로써 LLM 기반 보상 설계를 향상시키는 새로운 휴리스틱 프레임워크를 제안합니다. 제안된 프레임워크는 환경 상태의 과거 사용 및 성공률을 추적하는 상태 실행 테이블을 도입하여 LLM 대화에서 일반적으로 발견되는 마르코프 제약을 극복하고 보다 효과적인 탐색을 가능하게 합니다. 또한, 구조화된 프롬프트를 사용하여 사용자가 제공한 작업 설명과 전문가가 정의한 성공 기준을 조정하여 보상 설계 목표의 일관성을 보장합니다. 벤치마크 RL 작업에 대한 포괄적인 평가는 제안된 프레임워크의 효과와 안정성을 보여줍니다. 코드와 비디오 데모는 jingjjjjjie.github.io/LLM2Reward에서 확인할 수 있습니다.

시사점, 한계점

시사점:
과거 탐색 데이터와 수동 작업 설명을 활용하여 LLM 기반 보상 설계를 향상시키는 새로운 휴리스틱 프레임워크 제시.
상태 실행 테이블을 통해 LLM 대화의 마르코프 제약 극복 및 효과적인 탐색 가능.
구조화된 프롬프트를 이용한 사용자 작업 설명과 전문가 성공 기준의 조정으로 보상 설계 목표의 일관성 확보.
벤치마크 RL 작업에서 효과 및 안정성 검증.
한계점:
제안된 휴리스틱 프레임워크의 일반화 성능에 대한 추가적인 연구 필요.
다양한 RL 환경 및 작업에 대한 적용성 및 확장성 검증 필요.
상태 실행 테이블의 크기 및 관리에 대한 효율성 개선 필요.
구조화된 프롬프트 설계의 최적화 및 자동화 연구 필요.
👍