Feeds

고랭 패키지 퍼징 튜토리얼

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

NYX: 그레이박스 하이퍼바이저 퍼징

텔레그램 링크 공유

파이어폭스 취약점 연구

퍼징 논문 목록

마이크로소프트의 새로운 REST API 퍼저 출시

EkoParty 고급 퍼징 워크숍 자료

퍼징 학습 할인

웹어셈블리 리버싱 및 동적 분석 과정 출시

브라우저 취약점 연구를 위한 흥미로운 자료

Qiling 프레임워크 소개

HITBCyberWeek 사이버 주간 자료

스페인어 비디오 추천

크롬 최적화에 대한 멋진 포스트

윈도우에서 퍼징하기

구글의 새로운 파이썬 퍼저

Adobe Reader와 Frida로 계측하기

모의 해킹 도구에 대한 좋은 블로그 포스트

모의 해킹 도구에 대한 좋은 블로그 포스트

퍼징 학습 할인

EkoParty 고급 퍼징 워크숍 자료

스페인어 비디오 추천

Adobe Reader와 Frida로 계측하기

윈도우에서 퍼징하기

파이어폭스 취약점 연구

Qiling 프레임워크 소개

마이크로소프트의 새로운 REST API 퍼저 출시

크롬 최적화에 대한 멋진 포스트

퍼징 논문 목록

브라우저 취약점 연구를 위한 흥미로운 자료

NYX: 그레이박스 하이퍼바이저 퍼징

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

고랭 패키지 퍼징 튜토리얼

HITBCyberWeek 사이버 주간 자료

텔레그램 링크 공유

웹어셈블리 리버싱 및 동적 분석 과정 출시

구글의 새로운 파이썬 퍼저

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

EkoParty 고급 퍼징 워크숍 자료

브라우저 취약점 연구를 위한 흥미로운 자료

스페인어 비디오 추천

모의 해킹 도구에 대한 좋은 블로그 포스트

Qiling 프레임워크 소개

파이어폭스 취약점 연구

퍼징 학습 할인

고랭 패키지 퍼징 튜토리얼

텔레그램 링크 공유

NYX: 그레이박스 하이퍼바이저 퍼징

Adobe Reader와 Frida로 계측하기

퍼징 논문 목록

윈도우에서 퍼징하기

웹어셈블리 리버싱 및 동적 분석 과정 출시

마이크로소프트의 새로운 REST API 퍼저 출시

HITBCyberWeek 사이버 주간 자료

구글의 새로운 파이썬 퍼저

크롬 최적화에 대한 멋진 포스트

Adobe Reader와 Frida로 계측하기

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

웹어셈블리 리버싱 및 동적 분석 과정 출시

EkoParty 고급 퍼징 워크숍 자료

브라우저 취약점 연구를 위한 흥미로운 자료

텔레그램 링크 공유

퍼징 논문 목록

퍼징 학습 할인

Qiling 프레임워크 소개

고랭 패키지 퍼징 튜토리얼

스페인어 비디오 추천

NYX: 그레이박스 하이퍼바이저 퍼징

크롬 최적화에 대한 멋진 포스트

모의 해킹 도구에 대한 좋은 블로그 포스트

마이크로소프트의 새로운 REST API 퍼저 출시

파이어폭스 취약점 연구

HITBCyberWeek 사이버 주간 자료

구글의 새로운 파이썬 퍼저

윈도우에서 퍼징하기

모의 해킹 도구에 대한 좋은 블로그 포스트

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

구글의 새로운 파이썬 퍼저

EkoParty 고급 퍼징 워크숍 자료

Adobe Reader와 Frida로 계측하기

마이크로소프트의 새로운 REST API 퍼저 출시

웹어셈블리 리버싱 및 동적 분석 과정 출시

퍼징 학습 할인

HITBCyberWeek 사이버 주간 자료

파이어폭스 취약점 연구

스페인어 비디오 추천

윈도우에서 퍼징하기

고랭 패키지 퍼징 튜토리얼

Qiling 프레임워크 소개

텔레그램 링크 공유

브라우저 취약점 연구를 위한 흥미로운 자료

크롬 최적화에 대한 멋진 포스트

NYX: 그레이박스 하이퍼바이저 퍼징

퍼징 논문 목록

AI 벤치마크에 대한 신뢰 문제

Category

Empty

Summary

이 글에서는 AI 벤치마크의 신뢰성에 대한 의문을 제기합니다. 오픈AI의 GPT-45가 아레나 리더보드에서 1위를 차지했지만, 과거의 점수와 비교할 때 신뢰가 떨어질 수밖에 없는 이유를 설명합니다. 특히, 일론 머스크가 발표한 Grok 3의 점수와의 비교를 통해 AI 성능 평가의 문제점을 지적합니다.

•

Link - https://www.threads.net/@choi.openai/post/DGwoij8NLku

CHOI (@choi.openai) on Threads

제가 AI 벤치마크를 믿을 수 없는 이유입니다. 오픈AI의 GPT-4.5가 아레나 리더보드에서 1위를 차지했다고 하는데요. 3000개 이상의 투표로, GPT-4.5는 모든 카테고리에서 1위에 올랐으며, 스타일 제어/다중 턴 부문에서도 독보적으로 1위를 기록했다고 전해집니다. 이 내용은 과거 일론머스크가 Grok 3 발표때 처음으로 1400점을...

Content

제가 AI 벤치마크를 믿을 수 없는 이유입니다 오픈AI의 GPT45가 아레나 리더보드에서 1위를 차지했다고 하는데요 3000개 이상의 투표로 GPT45는 모든 카테고리에서 1위에 올랐으며 스타일 제어다중 턴 부문에서도 독보적으로 1위를 기록했다고 전해집니다 이 내용은 과거 일론머스크가 Grok 3 발표때 처음으로 1400점을 넘었다고 발표했지만 이제는 신뢰가 떨어질 수 밖에 없는 점수입니다 그 이유는

Made with Slashpage