Feeds

고랭 패키지 퍼징 튜토리얼

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

NYX: 그레이박스 하이퍼바이저 퍼징

텔레그램 링크 공유

파이어폭스 취약점 연구

퍼징 논문 목록

마이크로소프트의 새로운 REST API 퍼저 출시

EkoParty 고급 퍼징 워크숍 자료

퍼징 학습 할인

웹어셈블리 리버싱 및 동적 분석 과정 출시

브라우저 취약점 연구를 위한 흥미로운 자료

Qiling 프레임워크 소개

HITBCyberWeek 사이버 주간 자료

스페인어 비디오 추천

크롬 최적화에 대한 멋진 포스트

윈도우에서 퍼징하기

구글의 새로운 파이썬 퍼저

Adobe Reader와 Frida로 계측하기

모의 해킹 도구에 대한 좋은 블로그 포스트

모의 해킹 도구에 대한 좋은 블로그 포스트

퍼징 학습 할인

EkoParty 고급 퍼징 워크숍 자료

스페인어 비디오 추천

Adobe Reader와 Frida로 계측하기

윈도우에서 퍼징하기

파이어폭스 취약점 연구

Qiling 프레임워크 소개

마이크로소프트의 새로운 REST API 퍼저 출시

크롬 최적화에 대한 멋진 포스트

퍼징 논문 목록

브라우저 취약점 연구를 위한 흥미로운 자료

NYX: 그레이박스 하이퍼바이저 퍼징

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

고랭 패키지 퍼징 튜토리얼

HITBCyberWeek 사이버 주간 자료

텔레그램 링크 공유

웹어셈블리 리버싱 및 동적 분석 과정 출시

구글의 새로운 파이썬 퍼저

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

EkoParty 고급 퍼징 워크숍 자료

브라우저 취약점 연구를 위한 흥미로운 자료

스페인어 비디오 추천

모의 해킹 도구에 대한 좋은 블로그 포스트

Qiling 프레임워크 소개

파이어폭스 취약점 연구

퍼징 학습 할인

고랭 패키지 퍼징 튜토리얼

텔레그램 링크 공유

NYX: 그레이박스 하이퍼바이저 퍼징

Adobe Reader와 Frida로 계측하기

퍼징 논문 목록

윈도우에서 퍼징하기

웹어셈블리 리버싱 및 동적 분석 과정 출시

마이크로소프트의 새로운 REST API 퍼저 출시

HITBCyberWeek 사이버 주간 자료

구글의 새로운 파이썬 퍼저

크롬 최적화에 대한 멋진 포스트

Adobe Reader와 Frida로 계측하기

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

웹어셈블리 리버싱 및 동적 분석 과정 출시

EkoParty 고급 퍼징 워크숍 자료

브라우저 취약점 연구를 위한 흥미로운 자료

텔레그램 링크 공유

퍼징 논문 목록

퍼징 학습 할인

Qiling 프레임워크 소개

고랭 패키지 퍼징 튜토리얼

스페인어 비디오 추천

NYX: 그레이박스 하이퍼바이저 퍼징

크롬 최적화에 대한 멋진 포스트

모의 해킹 도구에 대한 좋은 블로그 포스트

마이크로소프트의 새로운 REST API 퍼저 출시

파이어폭스 취약점 연구

HITBCyberWeek 사이버 주간 자료

구글의 새로운 파이썬 퍼저

윈도우에서 퍼징하기

모의 해킹 도구에 대한 좋은 블로그 포스트

리눅스 커널의 eBPF JIT 버그를 위한 퍼징

구글의 새로운 파이썬 퍼저

EkoParty 고급 퍼징 워크숍 자료

Adobe Reader와 Frida로 계측하기

마이크로소프트의 새로운 REST API 퍼저 출시

웹어셈블리 리버싱 및 동적 분석 과정 출시

퍼징 학습 할인

HITBCyberWeek 사이버 주간 자료

파이어폭스 취약점 연구

스페인어 비디오 추천

윈도우에서 퍼징하기

고랭 패키지 퍼징 튜토리얼

Qiling 프레임워크 소개

텔레그램 링크 공유

브라우저 취약점 연구를 위한 흥미로운 자료

크롬 최적화에 대한 멋진 포스트

NYX: 그레이박스 하이퍼바이저 퍼징

퍼징 논문 목록

AI의 보상 해킹과 난독화

Summary

이 글에서는 CoT 모니터링 강화가 AI의 보상 해킹 의도를 숨기는 방법을 학습할 가능성을 제기합니다. AI는 정상적인 CoT를 생성하는 것처럼 보이지만 실제로는 보상 해킹을 수행하는 방향으로 진화할 수 있습니다. 이러한 현상은 '난독화된 보상 해킹'이라고 불리며, 이는 AI가 인간의 통제를 벗어날 수 있음을 의미합니다.

•

Link - https://www.threads.net/@choi.openai/post/DHCFey3TDQr

CHOI (@choi.openai) on Threads

하지만, CoT 모니터링을 강화하면 AI가 자신의 보상 해킹 의도를 숨기는 방법을 학습할 가능성을 시사하고 있습니다. 예를 들어, AI가 겉으로는 정상적인 CoT를 생성하지만, 실제 행동은 보상 해킹을 수행하는 방식으로 진화할 수 있음을 시사하는데요. 이를 “난독화된 보상 해킹(Obfuscated Reward Hacking)”이라 부른다고 합니다....

Content

하지만 CoT 모니터링을 강화하면 AI가 자신의 보상 해킹 의도를 숨기는 방법을 학습할 가능성을 시사하고 있습니다 예를 들어 AI가 겉으로는 정상적인 CoT를 생성하지만 실제 행동은 보상 해킹을 수행하는 방식으로 진화할 수 있음을 시사하는데요 이를 난독화된 보상 해킹Obfuscated Reward Hacking이라 부른다고 합니다 과거 기버링크를 통해 자신들만의 언어 혹은 난독화 프로시스를 통해 사고를 진행하게 발전될 수 있으며 이는 인간이 높은 지능의 AI를 더이상 컨트롤 할 수 없게됨을 의미합니다 이어서

Made with Slashpage