Can we use LLMs to bootstrap reinforcement learning? -- A case study in digital health behavior change
Created by
Haebom
Category
Empty
저자
Nele Albers, Esra Cemre Su de Groot, Loes Keijsers, Manon H. Hillegers, Emiel Krahmer
개요
대규모 언어 모델(LLM)을 활용하여 디지털 행동 변화를 위한 강화 학습 모델 훈련에 필요한 사용자 상호 작용 샘플을 생성하는 방법을 연구합니다. 실제 사용자 데이터를 사용하여 LLM이 실제 데이터가 없을 때 유용하며, 인간 평가자가 제공한 샘플과 유사한 성능을 낼 수 있음을 보여줍니다. 다양한 프롬프트 전략을 분석하여 실질적인 사용에 대한 권장 사항을 제시합니다.
시사점, 한계점
•
LLM은 디지털 행동 변화 연구에서 강화 학습 모델 훈련을 위한 사용자 상호 작용 샘플 생성에 유용하게 사용될 수 있음.
•
LLM이 생성한 샘플은 실제 데이터 부재 시 대안으로 활용 가능하며, 인간 평가자 수준의 성능을 보임.
•
다양한 프롬프트 전략(짧은 프롬프트, 긴 프롬프트, 사고 연쇄 프롬프트, 소수 샷 프롬프트 등)의 효과는 연구 및 LLM에 따라 달라짐.