Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety

Created by
  • Haebom

저자

Tomek Korbak, Mikita Balesni, Elizabeth Barnes, Yoshua Bengio, Joe Benton, Joseph Bloom, Mark Chen, Alan Cooney, Allan Dafoe, Anca Dragan, Scott Emmons, Owain Evans, David Farhi, Ryan Greenblatt, Dan Hendrycks, Marius Hobbhahn, Evan Hubinger, Geoffrey Irving, Erik Jenner, Daniel Kokotajlo, Victoria Krakovna, Shane Legg, David Lindner, David Luan, Aleksander M\k{a}dry, Julian Michael, Neel Nanda, Dave Orr, Jakub Pachocki, Ethan Perez, Mary Phuong, Fabien Roger, Joshua Saxe, Buck Shlegeris, Martin Soto, Eric Steinberger, Jasmine Wang, Wojciech Zaremba, Bowen Baker, Rohin Shah, Vlad Mikulik

개요

본 논문은 인간 언어로 "사고하는" AI 시스템이 AI 안전성에 독특한 기회를 제공한다는 점을 제시합니다. 즉, AI 시스템의 사고 과정(CoT)을 모니터링하여 잘못된 의도를 감지할 수 있다는 것입니다. 모든 AI 감시 방법과 마찬가지로 CoT 모니터링에도 한계가 있으며 일부 잘못된 행동은 눈에 띄지 않을 수 있습니다. 그럼에도 불구하고 CoT 모니터링은 유망하며, 기존 안전 방법과 함께 CoT 모니터링에 대한 추가 연구와 투자를 권장합니다. CoT 모니터링의 취약성을 고려하여, 최첨단 모델 개발자는 개발 결정이 CoT 모니터링에 미치는 영향을 고려해야 한다고 제안합니다.

시사점, 한계점

시사점: 인간 언어 기반 AI 시스템의 사고 과정 모니터링(CoT monitoring)을 통한 AI 안전성 확보 가능성 제시. 기존 안전 방법과 병행한 CoT 모니터링 연구 및 투자 필요성 강조.
한계점: CoT 모니터링의 불완전성으로 인해 일부 잘못된 행동이 감지되지 않을 수 있음. CoT 모니터링의 취약성 존재.
👍