Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs

Created by
  • Haebom
Category
Empty

저자

Fei Wei, Daoyuan Chen, Ce Wang, Yilun Huang, Yushuo Chen, Xuchen Pan, Yaliang Li, Bolin Ding

개요

본 논문은 대규모 언어 모델(LLM)을 능동적이고 목표 지향적인 파트너로 만드는 것을 목표로 한다. 이를 위해 복잡한 사용자 역학을 모델링할 필요 없이 오프라인 전문가 데이터에서 직접 능동적인 대화 에이전트를 학습하고 배포하는 일반적인 시뮬레이터 없는 프레임워크인 \texttt{Learn-to-Ask}를 제안한다. 핵심 아이디어는 각 전문가 궤적의 관찰된 미래를 활용하여 오프라인 정책 학습 문제를 재구성하는 것이다. 이를 통해 전문가의 드러난 전략에 기반한 밀도 있는 턴별 보상 신호를 추론하고, 어려운 장기 문제를 일련의 지도 학습 작업으로 분해하며, 무엇을 질문할지 그리고 언제 중단할지를 결정하는 \texttt{(action, state_assessment)} 튜플을 출력하는 정책을 훈련한다. 자동 채점자 보정 파이프라인은 최소한의 인간 감독으로 LLM 기반 보상 모델에서 노이즈를 체계적으로 제거한다. 실제 의료 데이터 세트에서 다양한 크기의 LLM(최대 32B)을 사용하여 \texttt{Learn-to-Ask}의 효과를 입증하고, 실제 대규모 온라인 AI 서비스에 LLM을 성공적으로 배포했다. 자체 평가에서 인간 전문가보다 뛰어난 성능을 달성하여 오프라인 데이터를 실질적인 현실 세계의 영향으로 변환하는 프레임워크의 능력을 입증했다.

시사점, 한계점

시사점:
오프라인 전문가 데이터에서 직접 학습하여 LLM을 능동적인 대화 에이전트로 만들 수 있는 프레임워크 제시.
복잡한 사용자 시뮬레이터 없이 현실 세계 데이터에 효과적으로 적용 가능.
자동 채점자 보정 파이프라인을 통해 보상 모델의 신뢰성 확보.
실제 의료 데이터셋 및 실제 온라인 서비스에 성공적으로 배포 및 인간 전문가 능가하는 성능 달성.
LLM을 능동적이고 목표 지향적인 응용 프로그램으로 변환하는 실용적이고 경제적으로 실행 가능한 청사진 제시.
한계점:
(논문에 구체적인 한계점이 명시되지 않음)
👍