Sign In

Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs

Created by
  • Haebom
Category
Empty

저자

Fei Wei, Daoyuan Chen, Ce Wang, Yilun Huang, Yushuo Chen, Xuchen Pan, Yaliang Li, Bolin Ding

개요

본 논문은 대규모 언어 모델(LLM)을 능동적이고 목표 지향적인 파트너로 만드는 것을 목표로 한다. 특히, 복잡한 사용자 역학을 모델링할 필요 없이 오프라인 전문가 데이터로부터 직접 능동적인 대화 에이전트를 학습하고 배포하는 일반적인 시뮬레이터 없는 프레임워크인 \texttt{Learn-to-Ask}를 제시한다. 이 프레임워크는 전문가 궤적의 관찰된 미래를 활용하여 각 턴마다 밀도 있는 보상 신호를 추론하고, 질문 내용과 중단 시점을 제어하는 구조화된 \texttt{(action, state_assessment)} 튜플을 출력하도록 정책을 학습시킨다. 또한, 자동 채점자 보정 파이프라인을 통해 LLM 기반 보상 모델에서 노이즈를 제거한다. 실제 의료 데이터셋을 사용한 실험에서 \texttt{Learn-to-Ask}의 효과를 입증했으며, 실제 대규모 온라인 AI 서비스에 성공적으로 배포되어 인간 전문가보다 뛰어난 성능을 달성했다.

시사점, 한계점

시사점:
시뮬레이터 없이 오프라인 전문가 데이터로부터 직접 능동적인 대화 에이전트 학습 가능.
복잡한 사용자 모델링의 필요성을 제거하여 현실 격차를 해소.
실제 의료 데이터셋에서 효과 입증 및 실제 온라인 서비스에 성공적으로 배포.
인간 전문가보다 뛰어난 성능 달성.
수동적인 LLM을 능동적이고 목표 지향적인 LLM 애플리케이션으로 전환하기 위한 실용적이고 경제적인 청사진 제시.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음. (하지만 논문 전체를 요약한 것이므로, 논문 내의 한계점 언급은 포함되어 있지 않음)
👍