방향성 자극 프롬프트(Directional Stimulus Prompting, DSP)는 Zekun Li팀이 2023년에 공개한 <Guiding Large Language Models via Directional Stimulus Prompting> 논문에서 제안된 방식 입니다.
Guiding Large Language Models via Directional Stimulus Prompting.pdf2.072759MB
방향성 자극 프롬프트는 대규모 언어 모델(LLM)을 특정 원하는 결과로 유도하기 위한 새로운 프레임워크입니다. 이 방법은 직접 LLM을 조정하는 대신 작고 조정 가능한 정책 모델(예: T5)을 사용하여 각 입력 인스턴스에 대한 보조 방향성 자극 프롬프트를 생성합니다. 이러한 방향성 자극 프롬프트는 인스턴스별 세밀한 힌트와 단서로 작용하여 LLM이 원하는 결과를 생성하도록 유도합니다.
실제 예시
입력 텍스트: Bob Barker가 "The Price Is Right" 쇼로 8년 만에 복귀했습니다.
참조 요약: Bob Barker가 수요일에 "The Price Is Right" 진행을 맡았습니다. Barker는 2007년에 진행을 은퇴했습니다.
방향성 자극 프롬프트: 질문: 위의 기사를 바탕으로 힌트에 따라 2-3 문장으로 간략하게 요약하시오. 힌트: Bob Barker; TV; 4월 1일; "The Price Is Right”; 2007; 91.
모델 출력: 4월 1일 Bob Barker가 8년 만에 TV 쇼 "The Price Is Right"로 복귀했습니다. 91세의 Barker는 생기있게 첫 가격 추측 게임을 처리했습니다. Barker는 2007년에 진행을 내려놓았지만 여전히 박자를 놓치지 않았습니다.
어디다 쓰는고?
이 방법은 감독된 미세 조정(Supervised Fine-Tuning, SFT)을 사용하여 레이블이 지정된 데이터를 사용하여 정책 모델을 최적화하고, 강화 학습(Reinforcement Learning, RL)을 사용하여 LLM의 출력에 따라 온라인 또는 오프라인 보상을 통해 추가로 최적화합니다.
DSP는 작고 조정 가능한 언어 모델(예: 강화 학습 모델)을 사용하여 LLM의 응답을 원하는 결과로 유도하는 힌트나 단서를 만듭니다.
기존의 미세 조정 방식보다 더 큰 제어력을 제공하며, 모델의 응답을 안내하면서도 모델의 일반적인 능력을 유지합니다.
실제 활용 예시:
고객 서비스 분야에서 DSP는 고객의 불만을 분석하고 신속하고 정확한 해결책을 제공하여 효율성을 향상시키고 인간의 노력을 지원하는 데 활용될 수 있습니다.
고객 서비스 상황에서 "고객이 배송 지연에 대해 불만을 제기합니다"라는 프롬프트에 DSP는 "사과, 안심시키기, 해결책 제공"과 같은 힌트를 생성하여 LLM이 "배송 지연에 대해 사과드리며, 주문이 이제 우선 순위가 되었고 곧 도착하도록 조치를 취하고 있습니다"와 같은 공감적이고 유용한 응답을 구성하도록 유도합니다.