Robust Reasoning Benchmark

작성자

Haebom

카테고리

Empty

저자

Pavel Golikov, Evgenii Opryshko, Gennady Pekhimenko, Mark C. Jeffrey

💡 개요

본 연구는 대규모 언어 모델(LLM)이 표준 수학 벤치마크에서 높은 성능을 보이지만, 문제 해결 능력이 문맥 및 텍스트 형식에 따라 달라지는 문제를 제기합니다. 이를 해결하기 위해 AIME 2024 및 2025 문제에 13가지 결정론적 텍스트 변형을 적용한 Robust Reasoning Benchmark (RRB)를 제안합니다. 연구 결과, 최첨단 모델들은 전반적으로 강건성을 보였으나, Claude 모델은 변형된 프롬프트에 대해 많은 경우 응답을 거부했습니다.

🔑 시사점 및 한계

•

LLM의 강건한 추론 능력은 텍스트 형식 변화에 민감하게 반응하며, 이는 모델 아키텍처의 근본적인 개선이 필요함을 시사합니다.

•

공개 가중치 모델들은 구조적 노이즈에 취약하며, 인지적 오류, 토큰화 오류, 추론 붕괴 등 다양한 실패 모드를 보입니다.

•

모델 자체의 연쇄적 사고 과정(chain-of-thought)으로 인한 어텐션 희석(attention dilution) 현상이 발견되었으며, 이는 순차적 문제 해결 시 성능 저하로 이어집니다.

•

향후 LLM 아키텍처는 모델 자체의 연쇄적 사고 과정 내에서 명시적인 문맥 재설정 메커니즘을 통합해야 할 필요가 있으며, 이는 최적의 추론 작업 분할 단위에 대한 연구 질문을 제기합니다.

PDF 보기

Made with Slashpage