인간의 가치에 맞게 AI 시스템을 정렬하는 데 중요한 인간 피드백의 질을 향상시키기 위해 AI를 활용하는 방법을 탐구합니다. 특히, 인간에게도 어려운 안전 문제인 AI 출력의 사실 검증에 초점을 맞춥니다. AI 평가와 AI 평가자 신뢰도를 기반으로 한 인간 평가를 결합하는 것이 단독으로 사용하는 것보다 더 효과적임을 발견했습니다. AI 사실 검증 보조자를 제공하여 인간의 정확성을 향상시킬 수 있지만, 보조의 유형이 중요합니다. AI 설명, 신뢰도 및 레이블을 표시하면 과도한 의존으로 이어지지만, 검색 결과 및 증거만 표시하면 더 적절한 신뢰를 형성할 수 있습니다.