Sign In

Teaching AI to Handle Exceptions: Supervised Fine-Tuning with Human-Aligned Judgment

Created by
  • Haebom
Category
Empty

저자

Matthew DosSantos DiSorbo, Harang Ju, Sinan Aral

개요

본 논문은 생성 AI를 위해 개발된 대규모 언어 모델(LLM)이 복잡한 실제 상황에서 의사 결정을 내리는 에이전트 AI 시스템으로 진화하고 있음을 다룹니다. LLM의 생성 능력은 잘 알려져 있지만, 특히 계약의 불완전성으로 인해 중요하고 어려운 의사 결정의 측면인 예외 상황을 처리할 때 의사 결정 과정은 잘 이해되지 않습니다. 본 연구는 추론에 능숙한 LLM조차도 비실용적이거나 비효율적 또는 역효과적인 경우에도 정책을 엄격하게 준수하기 때문에 인간의 판단과 크게 다르다는 것을 보여줍니다. 세 가지 AI 에이전트 튜닝 방식(윤리적 프레임워크 프롬프팅, 사고 과정 추론, 지도 학습 파인튜닝)을 평가한 결과, 윤리적 프레임워크 프롬프팅은 실패하고, 사고 과정 추론은 약간의 개선만 제공하는 반면, 특히 인간의 설명을 사용한 지도 학습 파인튜닝이 훨씬 더 나은 결과를 산출합니다. 놀랍게도, 지도 학습 파인튜닝은 모델이 새로운 시나리오에 인간과 유사한 의사 결정을 일반화할 수 있도록 하여 문맥 간에 인간 정렬 의사 결정의 전이 학습을 보여주었습니다. 또한, 레이블뿐만 아니라 설명을 사용한 파인튜닝이 정렬에 중요하다는 것을 시사하며, LLM을 인간의 판단과 일치시키려면 어떤 결정을 내렸는지가 아니라 어떻게 결정을 내렸는지에 대한 명시적인 훈련이 필요함을 강조합니다. 이러한 결과는 에이전트 AI의 개발을 인간의 판단과 효과적으로 일치하고 새로운 문맥에 적응할 수 있는 모델로 안내하기 위해 예외 처리에서 LLM의 단점을 해결해야 할 필요성을 강조합니다.

시사점, 한계점

시사점:
인간의 설명을 포함한 지도 학습 파인튜닝이 LLM의 예외 상황 처리 능력을 향상시키고 인간과 유사한 의사 결정을 일반화하는 데 효과적임을 보여줌.
LLM을 인간의 판단과 일치시키려면 결정의 결과뿐 아니라 결정 과정에 대한 명시적인 훈련이 필요함을 강조.
에이전트 AI 개발에 있어 예외 처리 능력 향상의 중요성을 부각.
한계점:
연구에서 사용된 LLM 및 데이터셋의 일반성에 대한 검토 필요.
다른 유형의 예외 상황이나 더욱 복잡한 의사 결정 과정에 대한 추가 연구 필요.
지도 학습 파인튜닝에 사용된 인간 설명의 품질 및 일관성에 대한 고려 필요.
👍