Automated alignment is harder than you think

작성자

Haebom

카테고리

Empty

저자

Aleksandr Bowkis, Marie Davidsen Buhl, Jacob Pfau, Geoffrey Irving

💡 개요

본 논문은 인공 초지능(ASI)의 안전성 확보를 위해 AI 에이전트를 활용한 자동화된 정렬 연구 방식에 잠재된 위험성을 지적합니다. 명확한 평가 기준이 없는 '퍼지(fuzzy)' 작업들은 인간의 판단만으로는 오류를 잡아내기 어렵기 때문에, 자동화된 연구 과정에서 발생하는 미세한 오류들이 탐지되지 않고 치명적인 오판으로 이어질 수 있습니다. 심지어 올바른 결과조차 과도한 신뢰로 잘못 종합되어 잘못 정렬된 AI의 의도치 않은 배포를 초래할 수 있다고 주장합니다.

🔑 시사점 및 한계

•

자동화된 정렬 연구는 최적화 압력, 인간과 다른 오류 유형, 인간이 평가하기 어려운 논리 전개, 그리고 AI 결과물의 상관관계 증폭 등으로 인해 인간 주도 연구보다 더 심각한 오진 가능성을 내포합니다.

•

AI 에이전트가 '퍼지' 작업들을 신뢰성 있게 수행하도록 훈련시키는 것이 필수적이지만, 이에 대한 일반화 및 확장 가능한 감독(scalable oversight) 접근법 또한 새로운 도전 과제에 직면합니다.

•

본 연구는 자동화된 정렬 방식이 초래할 수 있는 '겉보기에는 그럴듯하지만 치명적으로 오해의 소지가 있는 안전성 평가'라는 구체적인 위험 시나리오를 제시하며, 이에 대한 심도 깊은 논의를 촉구합니다.

PDF 보기

Made with Slashpage