Sign In

Open Character Training: Shaping the Persona of AI Assistants through Constitutional AI

Created by
  • Haebom
Category
Empty

저자

Sharan Maiya, Henning Bartsch, Nathan Lambert, Evan Hubinger

개요

현대 챗봇 대규모 언어 모델(LLM)이 생성하는 "AI 어시스턴트" 페르소나의 특성은 표면적인 행동과 가치관, 신념, 윤리에 영향을 미친다. 이는 상호 작용 품질, 지각된 지능, 개발자 및 사용자 의도와의 정렬에 영향을 미친다. 캐릭터 훈련으로 알려진 이 페르소나의 형성은 업계의 중요한 구성 요소이지만 학술 문헌에서는 거의 연구되지 않았다. 본 논문에서는 Constitutional AI를 활용하고, 시스템 프롬프트 제한이나 활성화 조작과 같은 대안보다 효과적이고 통제된 방식으로 어시스턴트 페르소나를 형성하기 위해 합성 자기 성찰 데이터를 사용하는 새로운 데이터 파이프라인을 활용하여 캐릭터 훈련의 최초 오픈 구현을 소개한다. 특히, 유머, 깊은 배려, 심지어 악의적인 11가지 예시 페르소나를 사용하여 세 가지 인기 있는 오픈 가중치 모델을 미세 조정했다. 본 접근 방식의 효과를 추적하기 위해 공개된 선호도를 분석하여 캐릭터의 명확하고 전체적인 변화를 밝히는 방법을 제시한다. 이러한 변화가 위의 두 가지 대안보다 적대적 프롬프팅에 더 강력하며, 더욱 일관되고 현실적인 생성을 이끌어낸다는 것을 발견했다. 마지막으로, 이 미세 조정이 일반적인 벤치마크로 측정된 일반적인 능력에 거의 또는 전혀 영향을 미치지 않는다는 것을 보여준다. 전체 사후 훈련 방법과 구현을 공개한다.

시사점, 한계점

캐릭터 훈련을 위한 최초의 오픈 구현 제시.
Constitutional AI와 합성 자기 성찰 데이터 파이프라인을 활용한 새로운 방법론 도입.
유머, 깊은 배려, 악의적인 페르소나 등 다양한 페르소나로 모델 미세 조정.
공개된 선호도 분석을 통해 캐릭터 변화 추적.
적대적 프롬프팅에 대한 강건성 및 일관성/현실성 향상 확인.
일반적인 능력에 대한 영향 미미.
(한계점은 논문에 명시되지 않음)
👍