Maximizing Mutual Information Between Prompt and Response Improves LLM Performance With No Additional Data

작성자

Haebom

카테고리

Empty

저자

Hyunji Nam, Haoran Li, Natasha Jaques

💡 개요

본 논문은 추가 데이터 없이 LLM의 성능을 향상시키기 위해 프롬프트와 응답 간의 상호 정보량을 최대화하는 새로운 방법론인 MIPO (Mutual Information Preference Optimization)를 제안합니다. MIPO는 올바른 프롬프트에 대한 긍정적 응답과 무작위 프롬프트에 대한 부정적 응답을 생성하여 선호도 쌍을 구축하고, 이를 통해 LLM의 프롬프트-응답 상호 정보량을 극대화하는 학습을 수행합니다. 실험 결과, MIPO는 특히 개인화 태스크에서 상당한 성능 향상을 보였으며, 추가 데이터나 외부 감독 없이도 검증 가능한 영역에서도 유의미한 성능 개선을 가져왔습니다.

🔑 시사점 및 한계

•

외부 데이터나 감독 없이 LLM 자체의 신호만으로 성능을 향상시킬 수 있는 새로운 가능성을 제시합니다.

•

개인화뿐만 아니라 수학, 객관식 질의응답과 같은 검증 가능한 영역에서도 MIPO의 효과를 확인하여 적용 범위를 넓혔습니다.

•

MIPO가 생성하는 부정적 응답의 품질이 상호 정보량 최대화 및 성능 향상에 미치는 영향을 더 깊이 분석하고, 부정적 응답 생성 전략을 최적화하는 것이 향후 과제입니다.

PDF 보기

Made with Slashpage