Grok 3의 벤치마크 성능 테스트에 대한 논란이 일고 있습니다. 발표 당시 공개된 성능 차트에서 cons64 결과가 사용되었는데, 이는 다른 모델들과 동일한 환경에서 측정되지 않았습니다. 이로 인해 Grok 3의 실제 성능이 과장될 가능성이 있으며, 소비자들에게 오해를 불러일으킬 수 있습니다.
Grok 3의 벤치마크는 조작되었다 역시 Grok 3의 벤치마크성능 테스트에 대한 논란이 많네요 Grok 3 발표 당시 공개된 성능 차트에는 두 개의 그래프가 있었는데 그중 가장 높은 성능을 보이는 연한 파란색 차트는 cons64 결과를 나타냅니다 cons64는 모델이 64번 추론을 수행한 후 가장 많이 나온 답변을 선택하는 방식으로 성능을 평가하는 방법입니다 즉 다른 모델들과 동일한 환경에서 벤치마크를 측정한 것이 아니라는 의미이며 실제 성능은 오픈AI의 o3minihigh보다 낮다는 해석이 가능합니다 Grok 3의 성능을 강조하기 위해 동일한 환경에서 테스트한 결과가 아닌 유리한 벤치마크 결과를 선택적으로 사용함으로써 기본 모델의 성능이 더 우수하다는 인상을 줄 가능성이 있습니다 이는 소비자들에게 오해를 불러일으킬 수 있는 부분입니다