Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adaptive Thinking via Mode Policy Optimization for Social Language Agents

Created by
  • Haebom

저자

Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao

개요

본 논문은 기존 사회 지능 시뮬레이션 연구의 한계점인 고정적인 추론 깊이를 극복하기 위해, 상황에 따라 추론 깊이를 동적으로 조절하는 적응형 모델 학습(AML) 프레임워크를 제안합니다. AML은 인지 제어 이론에 기반하여 직관적 반응부터 심층적 숙고까지 다양한 사고 모드를 계층적으로 정의하고, 상황 인식 기반 모드 전환 및 추론을 최적화하는 적응형 모드 정책 최적화(AMPO) 알고리즘을 개발합니다. 이는 다양한 수준의 사고 모드 설계, 사회적 상호작용에 따른 상황 인식 모드 전환, 그리고 깊이 적응형 처리를 통한 토큰 효율적인 추론이라는 세 가지 핵심적인 발전을 이룹니다. 실험 결과, AML은 GPT-4o보다 15.6% 높은 성능을 달성했으며, AMPO는 GRPO보다 7.0% 높은 성능을 32.8% 짧은 추론 체인으로 달성하여 적응형 사고 모드 선택 및 최적화 메커니즘의 우수성을 입증했습니다.

시사점, 한계점

시사점:
사회적 상호작용에서의 언어 에이전트의 적응적 사고 능력 향상에 대한 새로운 접근 방식 제시
상황에 맞는 다양한 추론 깊이 조절을 통한 토큰 사용 효율 증대
인지 제어 이론 기반의 계층적 사고 모드 설계를 통한 사회 지능 시뮬레이션 개선
AMPO 알고리즘을 통해 기존 방법보다 높은 성능과 효율성 달성
한계점:
AMPO 알고리즘의 일반화 성능에 대한 추가적인 검증 필요
다양한 사회적 상황 및 복잡한 상호작용에 대한 적용성 연구 필요
사고 모드의 계층적 분류 기준에 대한 명확한 정의 및 객관적인 평가 기준 제시 필요
👍