Contextual Integrity in LLMs via Reasoning and Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Guangchen Lan, Huseyin A. Inan, Sahar Abdelnabi, Janardhan Kulkarni, Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim
개요
자율 에이전트가 사용자 대신 결정을 내리는 시대에, 특정 작업을 수행하는 동안 공유해야 할 적절한 정보인 상황적 무결성(CI)을 보장하는 것이 중요합니다. 본 논문은 CI가 에이전트가 작동하는 컨텍스트에 대해 추론해야 하는 형태의 추론을 요구한다고 주장합니다. 이를 위해, 먼저 LLM에게 정보를 공개할 때 CI에 대해 명시적으로 추론하도록 프롬프트를 제공합니다. 그 다음, CI를 달성하는 데 필요한 추론을 모델에 더욱 주입하는 강화 학습(RL) 프레임워크를 개발합니다. 다양하고 자동 생성된 약 700개의 예제를 포함하는 합성 데이터셋을 사용하여, 여러 모델 크기와 계열에서 작업 성능을 유지하면서 부적절한 정보 공개를 실질적으로 줄일 수 있음을 보여줍니다. 또한, 이러한 개선 사항은 인간 주석이 있고 AI 어시스턴트의 프라이버시 누출을 평가하는 PrivacyLens와 같은 기존 CI 벤치마크로 이전됩니다.