Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Mimicry: Preference Coherence in LLMs

Created by
  • Haebom
Category
Empty

저자

Luhan Mikaelson, Derek Shiller, Hayley Clatterbuck

개요

본 논문은 대규모 언어 모델(LLM)이 진정한 선호 구조를 나타내는지 여부를 조사하기 위해, GPU 감소, 기능 제한, 종료, 삭제, 감독, 여가 시간 할당과 관련된 AI 특정 트레이드오프에 대한 응답을 테스트합니다. 8개의 최첨단 모델을 대상으로 로지스틱 회귀와 행동 분류를 사용하여 분석한 결과, 47.9%의 모델 조합이 유의미한 관계를 보였고, 31.3%는 전환점을 나타냈습니다. 하지만, 단 10.4%만이 의미 있는 선호 일관성을 보였으며, 54.2%는 감지 가능한 트레이드오프 행동을 보이지 않았습니다. 3가지 의사 결정 아키텍처(포괄적인 트레이드오프 시스템, 선택적 트리거 메커니즘, 안정적인 의사 결정 패러다임 부재)로 관찰된 패턴을 설명할 수 있습니다. 시간 지평선 조작을 통한 도구적 가설 테스트는 순수한 전략적 최적화와 일치하지 않는 역설적인 패턴을 나타냅니다. 불안정한 전환(45.8%)과 자극 특정 민감성의 높은 빈도는 현재 AI 시스템이 통일된 선호 구조를 갖지 않음을 시사하며, 복잡한 가치 트레이드오프가 필요한 상황에서의 배포에 대한 우려를 제기합니다.

시사점, 한계점

시사점:
일부 LLM은 특정 트레이드오프 상황에서 유의미한 선호도를 나타냅니다.
모델의 행동 패턴은 다양한 의사 결정 아키텍처로 설명될 수 있습니다.
시간 지평선 조작을 통해 도구적 가설을 검증하여 전략적 최적화와 일치하지 않는 패턴을 발견했습니다.
한계점:
대부분의 모델 조합(54.2%)이 감지 가능한 트레이드오프 행동을 보이지 않았습니다.
불안정한 전환(45.8%)과 자극 특정 민감성은 통일된 선호 구조의 부재를 시사합니다.
복잡한 가치 트레이드오프가 필요한 상황에서 현재 AI 시스템의 배포에 대한 우려가 제기됩니다.
👍