GSM-SEM: Benchmark and Framework for Generating Semantically Variant Augmentations

Author

Haebom

저자

Jyotika Singh, Fang Tu, Aziza Mirsaidova, Amit Agarwal, Hitesh Laxmichand Patel, Sandip Ghoshal, Miguel Ballesteros, Karan Dua, Yassine Benajiba, Weiyi Sun, Tao Sheng, Graham Horwood, Sujith Ravi, Dan Roth

💡 개요

본 연구는 기존 수학 문제 추론 벤치마크의 한계, 특히 고정된 테스트 세트에 대한 모델의 암기 문제를 해결하기 위해 제안된 GSM-SEM 프레임워크를 소개합니다. GSM-SEM은 문제 설명에서 엔티티, 속성, 관계를 수정하여 의미론적으로 다양한 변형을 생성함으로써 모델이 새로운 조건에서 솔루션을 재계산하도록 요구하지만, 원래 계산/정답과 문제 난이도는 유지하도록 제약합니다. 이 프레임워크는 반복 실행 시마다 새로운 변형을 생성하여 평가의 편향성을 줄이고, GSM8K 외에도 다양한 벤치마크에 적용 가능함을 보였습니다.

🔑 시사점 및 한계

•

기존 벤치마크의 암기 문제점을 완화하고 모델의 진정한 추론 능력을 더 정확하게 측정할 수 있는 새로운 데이터셋 생성 방법을 제시합니다.

•

의미론적 변화와 심볼릭/기타 변형을 결합할 때 최첨단 언어 모델의 성능이 현저히 저하됨을 보여, 현재 모델들의 견고성 부족을 시사합니다.

•

다양한 벤치마크에 적용 가능성을 입증하며 AI/ML 연구 커뮤니티에 유용한 도구를 제공합니다.

•

생성된 변형이 원래의 난이도를 '근사'하도록 제약하는데, 이 근사치의 정확성과 이로 인한 잠재적 정보 손실은 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage