본 논문은 ChatGPT-3.5와 GPT-4o-mini를 사용하여 일본어와 영어에서 제로샷 사고 과정(CoT) 프롬프팅의 효과를 비교 분석했습니다. 제로샷 CoT는 프롬프트에 "Let's think step by step"과 같은 구절을 추가하여 답변 전 추론을 유도하는 기법으로, 특히 영어에서 수학 및 추론 과제의 LLM 성능 향상을 보여주었습니다. 연구진은 일본어 다중 작업 언어 이해 벤치마크(JMMLU)와 다중 작업 언어 이해 벤치마크(MMLU)를 사용하여 이러한 효과가 일본어로 어떻게 전이되는지 조사했습니다. 그 결과, GPT-3.5의 경우 특정 프롬프트 범주에서 제로샷 CoT 프롬프팅이 상당한 성능 향상으로 이어질 수 있지만, GPT-4o-mini에서는 성능 저하와 관련이 있음을 보였습니다. 그러나 더 발전된 모델에서 효과가 감소하는 경향에도 불구하고, 일본어 프롬프트의 경우 대학 수학 및 추상 대수와 같은 특정 범주는 여전히 성능 향상을 보였습니다.