Using Reinforcement Learning to Train Large Language Models to Explain Human Decisions
Created by
Haebom
저자
Jian-Qiao Zhu, Hanbo Xie, Dilip Arumugam, Robert C. Wilson, Thomas L. Griffiths
개요
본 논문은 대규모 언어 모델(LLM)을 이중 목적 인지 모델로 활용하는 연구를 제시합니다. LLM의 강력한 예측 성능과 자연어 기반의 해석 가능성을 결합하여 인간의 위험 감수적 선택을 예측하고 설명하는 모델을 개발하고자 합니다. 구체적으로, 결과 기반 보상을 활용한 강화 학습을 통해 LLM이 인간의 위험 감수적 선택에 대한 명시적인 추론 과정을 생성하도록 유도합니다. 연구 결과는 이러한 접근 방식이 정량적 예측 성능과 더불어 고품질의 설명을 생성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
LLM을 이용하여 인간의 인지 과정을 예측하고 설명하는 새로운 인지 모델링 패러다임 제시
◦
강화 학습을 통해 LLM의 해석 가능성을 향상시킬 수 있음을 증명
◦
정량적 예측과 정성적 설명을 동시에 제공하는 고성능 인지 모델 개발 가능성 제시
•
한계점:
◦
현재 모델은 위험 감수적 선택에 국한됨. 다른 인지 과제로의 일반화 가능성에 대한 추가 연구 필요