Cookie라는 표현은, 무언가의 이득입니다! 이 그래프는 다양한 언어 모델(GPT-3.5, GPT-4, Llama2-70B, ChatGLM3, Swallow-70B)의 성능을 MMLU, C-Eval, JMLLU 세 가지 벤치마크에서 T-테스트로 비교한 결과입니다. Advaned 모델에서 프롬프트의 공손함 수준이 모델 성능에 미치는 영향이 적을 수 있음을 보여줍니다. 실제로 그런지, 다양한 conversation context 에서 연구를 해보면 유의미한 결과가 있을 것 같습니다.