Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models

Author

Haebom

저자

Xiaojie Gu, Sherry T. Tong, Aosong Feng, Sophia Simeng Han, Jinghui Lu, Yingjian Chen, Yusuke Iwasawa, Yutaka Matsuo, Chanjun Park, Rex Ying, Irene Li

💡 개요

본 연구는 대규모 언어 모델(LLM)의 다단계 추론 능력을 평가할 때 최종 답변만으로는 중간 단계에서의 실패를 파악하기 어렵다는 문제점을 지적합니다. 이를 해결하기 위해, 저자들은 단계별 평가가 가능한 4단계 질의응답(QA) 벤치마크인 Omanic을 제안하며, 이를 통해 최종 답변 정확도뿐만 아니라 추론 과정 중 어느 단계에서 오류가 발생하는지 진단할 수 있음을 보입니다. Omanic은 자동 생성된 훈련 데이터와 전문가 검토를 거친 평가 데이터로 구성되어 있으며, 실험 결과 LLM의 추론 과정에서 후반 단계의 병목 현상, 사실 지식의 한계, 오류 전파 등을 발견했습니다.

🔑 시사점 및 한계

•

LLM의 다단계 추론 능력을 평가할 때 최종 답변 정확도 외에 단계별 분석이 중요하다는 점을 강조합니다.

•

Omanic 벤치마크는 LLM의 추론 과정을 더 깊이 이해하고 개선하는 데 유용한 도구를 제공합니다.

•

기계 생성 데이터(OmanicSynth)를 활용한 미세 조정이 다른 추론 및 수학 벤치마크에서 성능 향상을 가져와, 추론 능력 전이에 효과적임을 입증했습니다.

•

(한계점 또는 향후 과제) 제시된 벤치마크는 현재 4단계 추론에 초점을 맞추고 있으며, 더 복잡하고 긴 추론 과정에 대한 평가 방안은 추가적으로 연구될 필요가 있습니다. 또한, 기계 생성 데이터의 잠재적인 편향성이나 실제 인간의 추론 방식을 완전히 반영하지 못할 가능성에 대한 추가적인 검토가 필요할 수 있습니다.

PDF 보기

Made with Slashpage