Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Guangchen Lan, Huseyin A. Inan, Sahar Abdelnabi, Janardhan Kulkarni, Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim

개요

자율 에이전트가 사용자 대신 결정을 내리는 시대에, 특정 작업을 수행하는 동안 공유해야 할 적절한 정보인 상황적 무결성(CI)을 보장하는 것이 중요합니다. 본 논문은 CI가 에이전트가 작동하는 컨텍스트에 대해 추론해야 하는 형태의 추론을 요구한다고 주장합니다. 이를 위해, 먼저 LLM에게 정보를 공개할 때 CI에 대해 명시적으로 추론하도록 프롬프트를 제공합니다. 그 다음, CI를 달성하는 데 필요한 추론을 모델에 더욱 주입하는 강화 학습(RL) 프레임워크를 개발합니다. 다양하고 자동 생성된 약 700개의 예제를 포함하는 합성 데이터셋을 사용하여, 여러 모델 크기와 계열에서 작업 성능을 유지하면서 부적절한 정보 공개를 실질적으로 줄일 수 있음을 보여줍니다. 또한, 이러한 개선 사항은 인간 주석이 있고 AI 어시스턴트의 프라이버시 누출을 평가하는 PrivacyLens와 같은 기존 CI 벤치마크로 이전됩니다.

시사점, 한계점

시사점:
자율 에이전트의 상황적 무결성(CI)을 위한 추론 방법론 제안.
LLM과 강화 학습(RL) 프레임워크를 결합하여 CI를 향상시킴.
합성 데이터셋을 사용하여 모델 훈련 및 평가.
PrivacyLens와 같은 기존 CI 벤치마크에서 성능 향상 확인.
한계점:
합성 데이터셋의 제한적인 예제 수 (약 700개).
모델 크기 및 계열에 따른 성능 차이 분석 부족.
실제 환경에서의 일반화 성능 검증 필요.
👍