Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Latent Principle Discovery for Language Model Self-Improvement

Created by
  • Haebom
Category
Empty

저자

Keshav Ramji, Tahira Naseem, Ramon Fernandez Astudillo

개요

언어 모델(LM) 사용자가 모델의 생성 품질을 향상시키고자 할 때, 모델이 따라야 할 구체적인 행동 속성을 지정하는 것이 중요합니다. 하지만 광범위한 도메인에서 이러한 원칙을 수집하는 것은 노동 집약적인 주석 과정을 필요로 합니다. 본 논문에서는 자기 수정 설정을 통해 모델이 선호하는 응답을 위해 모델 추론을 안내하는 잠재 속성을 명시적으로 모델링하여 이 과정을 자동화하는 방법을 제안합니다. 이 접근 방식은 LM 자체에서 새로운 원칙을 추출하고 클러스터링을 통해 발견된 요소를 해석 가능한 집합으로 압축합니다. 특히, 후방 정규화된 몬테카를로 기대-최대화(Monte Carlo Expectation-Maximization) 형식을 사용하여 가장 효과적인 잠재 원칙의 축약된 집합을 식별하고 LM이 자체적으로 응답을 개선하기 위해 전략적으로 이를 호출하도록 학습시킵니다. 본 연구에서는 알고리즘을 여러 번 반복하여 부트스트래핑하면 더 작은 언어 모델(7-8B 파라미터)이 자체 개선을 달성하여 AlpacaEval 승률에서 +8-10%, MT-Bench에서 평균 +0.3, IFEval에서 원칙 준수 승률에서 +19-23% 향상을 보임을 입증합니다. 또한, 원칙을 클러스터링하면 모델 성능을 유지하면서 해석 가능하고 다양한 모델 생성 헌법을 얻을 수 있음을 보여줍니다. 본 연구 방법이 달성한 성과는 지속적인 자체 개선을 위한 자동화된 원칙 기반의 사후 훈련 방법의 가능성을 강조합니다.

시사점, 한계점

시사점:
언어 모델 자체에서 새로운 원칙을 추출하고 이를 통해 모델의 성능을 향상시키는 자동화된 방법론 제시.
작은 크기의 언어 모델(7-8B 파라미터)에서도 AlpacaEval, MT-Bench, IFEval에서 상당한 성능 향상 달성.
클러스터링을 통해 모델이 생성한 원칙을 해석 가능하고 다양하게 만들 수 있음.
지속적인 자체 개선을 위한 자동화된 방법론의 가능성 제시.
한계점:
구체적인 한계점에 대한 언급은 논문 요약에서 직접적으로 제시되지 않음. (논문 원문을 참고해야 함)
👍