Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reasoning Up the Instruction Ladder for Controllable Language Models

Created by
  • Haebom
Category
Empty

저자

Zishuo Zheng, Vidhisha Balachandran, Chan Young Park, Faeze Brahman, Sachin Kumar

개요

본 논문은 대규모 언어 모델(LLM) 기반 시스템이 여러 소스(모델 개발자, 사용자, 도구)의 지시사항을 처리해야 할 때, 지시사항 계층(IH)을 적용하여 신뢰성과 제어 가능성을 확보하는 방법을 제시한다. 특히, 모델이 사용자 프롬프트와 우선순위가 높은 (시스템) 지시사항 간의 관계를 먼저 '생각'하도록 함으로써 IH 해결을 추론 작업으로 재구성한다. VerIH라는 검증 가능한 답변을 가진 제약 조건 준수 작업의 지시사항 계층 데이터 세트를 구축하고, 이를 활용한 경량 강화 학습(reinforcement learning)을 통해 모델의 일반적인 추론 능력을 지시사항 우선순위 지정으로 효과적으로 이전한다. 훈련된 모델은 지시사항 준수 및 IH 벤치마크에서 일관된 개선을 보이며, 안전 관련 설정에서도 일반화 성능을 보인다. adversarial 사용자 입력과 사전 정의된 높은 우선순위 정책 간의 충돌을 해결함으로써 jailbreak 및 프롬프트 주입 공격에 대한 견고성을 향상시킨다.

시사점, 한계점

지시사항 계층(IH)을 추론 작업으로 재구성하여 LLM의 신뢰성과 제어 가능성을 향상시킴.
VerIH 데이터 세트를 활용하여 경량 강화 학습으로 일반적인 추론 능력을 지시사항 우선순위 지정에 효과적으로 이전.
지시사항 준수 및 IH 벤치마크에서 일관된 개선을 보임.
안전 관련 설정에서 일반화 성능을 보여 jailbreak 및 프롬프트 주입 공격에 대한 견고성 향상.
본 연구의 한계점은 명시되지 않음.
👍