대규모 언어 모델(LLM)은 수학, 사실적 질문 응답, 코드 생성과 같은 분야에서 뛰어난 성능을 보이지만, 다양한 언어로 이러한 작업을 수행하는 능력은 아직 개발이 덜 되었다. 특히 스와힐리어 또는 태국어와 같은 저자원 언어의 경우, LLM은 종종 프롬프트를 잘못 해석하거나 영어로 추론하는 경우가 많다. 이러한 고자원 언어에 대한 암묵적인 편향은 사실적 정확성, 해석 가능성 및 신뢰성을 저해한다. 본 논문에서는 다중 규모 다국어 정렬과 기계 번역된 질문에 대한 언어 일관성 보상을 결합하여, 모델이 대상 언어로 직접적이고 정확하게 추론하도록 훈련하는 새로운 방법인 M2A를 제안한다. 또한, 기존 다국어 벤치마크는 최종 답변만 평가하여, 의도한 언어로 추론이 발생하는지 여부를 간과한다. 이러한 격차를 해소하기 위해, 지리 기반 다국어 사실적 추론 벤치마크인 GeoFact-X를 영어, 힌디어, 일본어, 스와힐리어 및 태국어의 추론 추적과 함께 도입한다. 결과적으로 M2A는 수학적 및 사실적 추론 작업 모두에서 다국어 추론 충실도를 크게 향상시켰으며, 추론 인식 다국어 강화 학습이 강력한 상호 언어 일반화를 위해 중요하다는 것을 강조한다.