Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Chasing Consistency: Quantifying and Optimizing Human-Model Alignment in Chain-of-Thought Reasoning

Created by
  • Haebom
Category
Empty

저자

Boxuan Wang, Zhuoyun Li, Xinmiao Huang, Xiaowei Huang, Yi Dong

개요

본 논문은 대규모 언어 모델(LLM)의 추론 일관성을 평가하고 최적화하기 위한 프레임워크를 제시한다. 새로운 지표인 정렬 점수(Alignment Score)를 사용하여 모델이 생성한 추론 체인과 사람이 작성한 참조 체인 간의 의미적 정렬을 정량화한다. 경험적으로, 2-hop 추론 체인이 가장 높은 정렬 점수를 달성함을 발견했다. 이러한 현상을 설명하기 위해, 논리적 단절, 주제 전환, 중복 추론 및 인과 관계 역전의 네 가지 주요 오류 유형을 정의하고, 각 오류가 정렬 점수 저하에 어떻게 기여하는지 보여준다. 또한, Semantic Consistency Optimization Sampling (SCOS)를 제안하여 정렬 오류가 최소화된 체인을 샘플링하고 선호함으로써 3-hop 작업과 같이 더 긴 추론 체인에서 평균 29.84%의 정렬 점수 향상을 달성했다.

시사점, 한계점

시사점:
LLM의 추론 일관성을 평가하기 위한 새로운 지표인 정렬 점수 제안.
추론 오류 유형 분석을 통해 LLM의 추론 문제점 진단.
Semantic Consistency Optimization Sampling (SCOS)을 통한 추론 일관성 향상 방법 제시.
2-hop 추론 체인이 높은 정렬 점수를 가지는 현상 설명.
한계점:
제시된 SCOS 방법의 다른 LLM 아키텍처 및 작업에 대한 일반화 가능성 추가 연구 필요.
추론 오류 유형에 대한 추가적인 분석 및 개선 여지 존재.
실험에 사용된 데이터셋 및 작업의 다양성 확대 필요.
👍