Human Supervision as an Information Bottleneck: A Unified Theory of Error Floors in Human-Guided Learning

Created by

Haebom

저자

Alejandro Rodriguez Dominguez

💡 개요

본 연구는 대규모 언어 모델이 인간 생성 데이터 및 피드백으로 학습함에도 불구하고 발생하는 오류들이 모델 규모나 최적화 문제보다는 인간 감독 채널 자체의 구조적 한계에서 비롯된다는 통일된 이론을 제시합니다. 인간 감독 채널이 잠재적 평가 목표를 완전히 담지 못할 때, 이 채널은 정보 압축기 역할을 하여 학습자에게 필연적으로 초과 위험(excess-risk) 바닥을 발생시킨다는 것을 수학적으로 증명합니다.

🔑 시사점 및 한계

•

인간 감독 채널의 정보 압축성은 모델의 크기나 최적화 방식과 무관하게 고유한 오류 바닥을 생성하며, 이는 스케일링만으로는 해결할 수 없는 근본적인 문제임을 시사합니다.

•

검색, 프로그램 실행, 도구 사용과 같은 인간 외 보조 신호는 감독 채널의 유효 용량을 증대시켜 이러한 오류 바닥을 효과적으로 낮추거나 제거할 수 있습니다.

•

본 이론은 인간 피드백의 노이즈, 선호도 왜곡, 의미 압축 등 잠재적 평가 목표가 인간 감독 채널을 통해 완전히 전달되지 못하는 상황에 대한 구조적 이해를 제공합니다.

PDF 보기

Made with Slashpage