Feeds

고랭 패키지 퍼징 튜토리얼

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

NYX: 그레이박스 하이퍼바이저 퍼징

텔레그램 링크 공유

파이어폭스 취약점 연구

퍼징 논문 목록

마이크로소프트의 새로운 REST API 퍼저 출시

EkoParty 고급 퍼징 워크숍 자료

퍼징 학습 할인

웹어셈블리 리버싱 및 동적 분석 과정 출시

브라우저 취약점 연구를 위한 흥미로운 자료

Qiling 프레임워크 소개

HITBCyberWeek 사이버 주간 자료

스페인어 비디오 추천

크롬 최적화에 대한 멋진 포스트

윈도우에서 퍼징하기

구글의 새로운 파이썬 퍼저

Adobe Reader와 Frida로 계측하기

모의 해킹 도구에 대한 좋은 블로그 포스트

모의 해킹 도구에 대한 좋은 블로그 포스트

퍼징 학습 할인

EkoParty 고급 퍼징 워크숍 자료

스페인어 비디오 추천

Adobe Reader와 Frida로 계측하기

윈도우에서 퍼징하기

파이어폭스 취약점 연구

Qiling 프레임워크 소개

마이크로소프트의 새로운 REST API 퍼저 출시

크롬 최적화에 대한 멋진 포스트

퍼징 논문 목록

브라우저 취약점 연구를 위한 흥미로운 자료

NYX: 그레이박스 하이퍼바이저 퍼징

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

고랭 패키지 퍼징 튜토리얼

HITBCyberWeek 사이버 주간 자료

텔레그램 링크 공유

웹어셈블리 리버싱 및 동적 분석 과정 출시

구글의 새로운 파이썬 퍼저

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

EkoParty 고급 퍼징 워크숍 자료

브라우저 취약점 연구를 위한 흥미로운 자료

스페인어 비디오 추천

모의 해킹 도구에 대한 좋은 블로그 포스트

Qiling 프레임워크 소개

파이어폭스 취약점 연구

퍼징 학습 할인

고랭 패키지 퍼징 튜토리얼

텔레그램 링크 공유

NYX: 그레이박스 하이퍼바이저 퍼징

Adobe Reader와 Frida로 계측하기

퍼징 논문 목록

윈도우에서 퍼징하기

웹어셈블리 리버싱 및 동적 분석 과정 출시

마이크로소프트의 새로운 REST API 퍼저 출시

HITBCyberWeek 사이버 주간 자료

구글의 새로운 파이썬 퍼저

크롬 최적화에 대한 멋진 포스트

Adobe Reader와 Frida로 계측하기

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

웹어셈블리 리버싱 및 동적 분석 과정 출시

EkoParty 고급 퍼징 워크숍 자료

브라우저 취약점 연구를 위한 흥미로운 자료

텔레그램 링크 공유

퍼징 논문 목록

퍼징 학습 할인

Qiling 프레임워크 소개

고랭 패키지 퍼징 튜토리얼

스페인어 비디오 추천

NYX: 그레이박스 하이퍼바이저 퍼징

크롬 최적화에 대한 멋진 포스트

모의 해킹 도구에 대한 좋은 블로그 포스트

마이크로소프트의 새로운 REST API 퍼저 출시

파이어폭스 취약점 연구

HITBCyberWeek 사이버 주간 자료

구글의 새로운 파이썬 퍼저

윈도우에서 퍼징하기

모의 해킹 도구에 대한 좋은 블로그 포스트

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

구글의 새로운 파이썬 퍼저

EkoParty 고급 퍼징 워크숍 자료

Adobe Reader와 Frida로 계측하기

마이크로소프트의 새로운 REST API 퍼저 출시

웹어셈블리 리버싱 및 동적 분석 과정 출시

퍼징 학습 할인

HITBCyberWeek 사이버 주간 자료

파이어폭스 취약점 연구

스페인어 비디오 추천

윈도우에서 퍼징하기

고랭 패키지 퍼징 튜토리얼

Qiling 프레임워크 소개

텔레그램 링크 공유

브라우저 취약점 연구를 위한 흥미로운 자료

크롬 최적화에 대한 멋진 포스트

NYX: 그레이박스 하이퍼바이저 퍼징

퍼징 논문 목록

Grok 3 벤치마크 조작 논란

Summary

Grok 3의 벤치마크 성능 테스트에 대한 논란이 일고 있습니다. 발표 당시 공개된 성능 차트에서 cons64 결과가 사용되었는데, 이는 다른 모델들과 동일한 환경에서 측정되지 않았습니다. 이로 인해 Grok 3의 실제 성능이 과장될 가능성이 있으며, 소비자들에게 오해를 불러일으킬 수 있습니다.

•

Link - https://www.threads.net/@choi.openai/post/DGSDoOBPLgU

CHOI (@choi.openai) on Threads

Grok 3의 벤치마크는 조작되었다? 역시 Grok 3의 벤치마크(성능 테스트)에 대한 논란이 많네요. Grok 3 발표 당시 공개된 성능 차트에는 두 개의 그래프가 있었는데, 그중 가장 높은 성능을 보이는 연한 파란색 차트는 cons@64 결과를 나타냅니다. cons@64는 모델이 64번 추론을 수행한 후, 가장 많이 나온 답변을 선택하는 방식으로...

Content

Grok 3의 벤치마크는 조작되었다 역시 Grok 3의 벤치마크성능 테스트에 대한 논란이 많네요 Grok 3 발표 당시 공개된 성능 차트에는 두 개의 그래프가 있었는데 그중 가장 높은 성능을 보이는 연한 파란색 차트는 cons64 결과를 나타냅니다 cons64는 모델이 64번 추론을 수행한 후 가장 많이 나온 답변을 선택하는 방식으로 성능을 평가하는 방법입니다 즉 다른 모델들과 동일한 환경에서 벤치마크를 측정한 것이 아니라는 의미이며 실제 성능은 오픈AI의 o3minihigh보다 낮다는 해석이 가능합니다 Grok 3의 성능을 강조하기 위해 동일한 환경에서 테스트한 결과가 아닌 유리한 벤치마크 결과를 선택적으로 사용함으로써 기본 모델의 성능이 더 우수하다는 인상을 줄 가능성이 있습니다 이는 소비자들에게 오해를 불러일으킬 수 있는 부분입니다

Made with Slashpage