모델 크기와 등급이 GPT 3.5 Turbo와 비슷한 Gemini Pro 모델은 일반적으로 정확도가 GPT 3.5 터보와 비슷하지만 다소 떨어지고, 영어 작업에서는 GPT 4보다 훨씬 떨어집니다.
•
특히 Gemini Pro는 평균적으로 GPT 3.5 Turbo보다 성능이 다소 떨어졌으며, 특히 객관식 질문의 응답 순서 편향, 큰 숫자를 사용한 수학적 추론, 에이전트 작업의 조기 종료 등의 문제가 있는 것으로 나타났습니다. 기본 콘텐츠 필터링 설정을 사용할 경우 적극적인 콘텐츠 필터링으로 인해 응답에 실패하는 경우도 있었습니다.
•
반면에 장점도 있었습니다: Gemini Pro는 특히 길고 복잡한 추론 작업에서 GPT 3.5 Turbo보다 더 나은 성능을 보였습니다.
•
또한, 다른 언어로 텍스트를 생성할 때(특히 번역을 통해) 요청이 차단되지 않는 언어에서는 Gemini Pro가 GPT 3.5 Turbo와 GPT-4 Turbo보다 성능이 뛰어나지만, Gemini Pro가 답변을 반환하지 않는 언어도 몇 가지 있습니다.
•
오픈 소스 모델인 Mixtral은 지식 기반 QA 및 수학 작업에서는 Gemini Pro 및 GPT 3.5 Turbo와 경쟁력이 있지만, 다른 작업에서는 성능이 현저히 떨어집니다.