Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training

Created by
  • Haebom
Category
Empty

저자

Pengkai Wang, Linus, Pengwei Liu, Zhijie Sang, Congkai Xie, Hongxia Yang

ORBIT: Rubric-Based Incremental Training for High-Stakes Medical Dialogue

개요

ORBIT는 고위험 의료 대화(high-stakes medical dialogue)를 위한 개방형 루브릭 기반 점진적 학습 프레임워크입니다. 애매모호하고 상황 의존적인 피드백으로 인해 강화 학습(RL)이 어려운 의료 상담과 같은 개방형 도메인에서, ORBIT는 합성 대화 생성과 점진적 RL을 위한 적응형 가이드 역할을 하는 동적으로 구성된 루브릭을 통합합니다. 외부 의료 지식 기반이나 수작업 규칙 세트에 의존하는 대신, ORBIT는 루브릭 기반 피드백을 사용하여 학습 과정을 이끕니다. 범용 지침 따르기 LLM으로 구현될 수 있는 judge component를 활용하여 특정 작업에 대한 미세 조정의 필요성을 제거합니다. Qwen3-4B-Instruct 모델에 적용했을 때, ORBIT는 단 2,000개의 훈련 샘플을 사용하여 HealthBench-Hard 점수를 7.0에서 27.5로 높여, 이 규모의 모델에 대해 SOTA 성능을 달성했습니다. 더 큰 루브릭 데이터 세트를 통해, ORBIT 훈련 모델은 HealthBench-Hard에서 가장 강력한 오픈 소스 기준선과 경쟁합니다.

시사점, 한계점

시사점:
고위험 의료 대화에서 강화 학습의 문제점을 해결하는 새로운 프레임워크 제시 (ORBIT).
외부 지식이나 수작업 규칙 없이 일반 목적 LLM을 활용한 루브릭 기반 피드백 시스템 구축.
소규모 데이터로도 SOTA 달성 및 다양한 의료 시나리오에서 일관된 상담 품질 향상.
InfoBench에 적용하여 루브릭 기반 피드백의 일반성을 입증.
한계점:
해당 논문에서 구체적인 한계점은 명시되지 않음.
👍