Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can we use LLMs to bootstrap reinforcement learning? -- A case study in digital health behavior change

Created by
  • Haebom
Category
Empty

저자

Nele Albers, Esra Cemre Su de Groot, Loes Keijsers, Manon H. Hillegers, Emiel Krahmer

개요

대규모 언어 모델(LLM)을 활용하여 디지털 행동 변화를 위한 강화 학습 모델 훈련에 필요한 사용자 상호 작용 샘플을 생성하는 방법을 연구합니다. 실제 사용자 데이터를 사용하여 LLM이 실제 데이터가 없을 때 유용하며, 인간 평가자가 제공한 샘플과 유사한 성능을 낼 수 있음을 보여줍니다. 다양한 프롬프트 전략을 분석하여 실질적인 사용에 대한 권장 사항을 제시합니다.

시사점, 한계점

LLM은 디지털 행동 변화 연구에서 강화 학습 모델 훈련을 위한 사용자 상호 작용 샘플 생성에 유용하게 사용될 수 있음.
LLM이 생성한 샘플은 실제 데이터 부재 시 대안으로 활용 가능하며, 인간 평가자 수준의 성능을 보임.
다양한 프롬프트 전략(짧은 프롬프트, 긴 프롬프트, 사고 연쇄 프롬프트, 소수 샷 프롬프트 등)의 효과는 연구 및 LLM에 따라 달라짐.
프롬프트 문구의 차이만으로도 성능 차이가 발생할 수 있음.
실질적인 LLM 기반 샘플 활용을 위한 구체적인 권장 사항 제시.
👍