Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation

Created by
  • Haebom

저자

Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris

개요

본 논문은 대규모 언어 모델(LLM)의 안전성 향상을 위한 새로운 데이터 생성 방법인 AIDSAFE를 제안합니다. AIDSAFE는 다중 에이전트 숙의를 통해 안전 정책에 대한 추론을 반복적으로 확장하여 고품질 정책 기반 사고 과정(CoT) 데이터셋을 생성합니다. 데이터 정제 단계를 통해 반복적이고 불필요하며 기만적인 생각을 제거하여 고품질 출력을 보장합니다. 생성된 CoT는 안전성 향상을 위한 지도 학습 미세 조정(SFT)에 활용되며, 신뢰 증강을 통해 선호도 데이터를 생성하여 DPO 훈련과 같은 정렬 단계에도 활용될 수 있습니다. 실험 결과, AIDSAFE를 통해 생성된 CoT는 우수한 정책 준수 및 추론 품질을 달성하며, 이를 통해 미세 조정된 오픈소스 LLM은 안전성 일반화 및 탈옥 저항성을 크게 향상시키는 동시에 유용성과 과도한 거부 정확도를 유지하는 것으로 나타났습니다. 생성된 데이터셋은 Hugging Face에서 공개됩니다.

시사점, 한계점

시사점:
다중 에이전트 숙의 기반의 효율적인 고품질 안전 정책 기반 CoT 데이터셋 생성 방법 제시
SFT 기반 안전성 향상에 효과적인 데이터셋 제공
DPO 훈련 등 정렬 단계에 필요한 선호도 데이터 생성 방법 제시
오픈소스 LLM의 안전성 및 탈옥 저항성 향상에 기여
생성된 데이터셋 공개를 통한 연구 공유 및 재현성 확보
한계점:
AIDSAFE의 성능은 생성된 데이터셋의 품질에 크게 의존하며, 데이터셋 생성 과정의 편향이나 오류가 최종 결과에 영향을 미칠 수 있음.
다중 에이전트 숙의 과정의 복잡성 및 계산 비용이 높을 수 있음.
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요함. 특히 다양한 LLM과 안전 정책에 대한 적용성 검증이 필요함.
현재 공개된 데이터셋의 규모 및 다양성에 대한 제한이 존재할 수 있음.
👍