이 글에서는 AI 벤치마크의 신뢰성에 대한 의문을 제기합니다. 오픈AI의 GPT-45가 아레나 리더보드에서 1위를 차지했지만, 과거의 점수와 비교할 때 신뢰가 떨어질 수밖에 없는 이유를 설명합니다. 특히, 일론 머스크가 발표한 Grok 3의 점수와의 비교를 통해 AI 성능 평가의 문제점을 지적합니다.
제가 AI 벤치마크를 믿을 수 없는 이유입니다 오픈AI의 GPT45가 아레나 리더보드에서 1위를 차지했다고 하는데요 3000개 이상의 투표로 GPT45는 모든 카테고리에서 1위에 올랐으며 스타일 제어다중 턴 부문에서도 독보적으로 1위를 기록했다고 전해집니다 이 내용은 과거 일론머스크가 Grok 3 발표때 처음으로 1400점을 넘었다고 발표했지만 이제는 신뢰가 떨어질 수 밖에 없는 점수입니다 그 이유는