모든 입력 x와 선행하는 generation $y_{<t}$에 대해 모델이 retrieval의 유용성 평가를 위해 retrieval token을 해독
2.
→ retrieval이 필요하지 않다면 일반 LM처럼 다음 텍스트 생성
3.
→ retrieval이 필요하다면, 모델이 {검색된 문서의 연관도를 평가하기 위한 critique token(IsRel), 다음 response segment, response segment의 정보가 문서로 뒷받침이 되는지 평가하기 위한 critique token(IsSup)} 을 생성
4.
새로운 critique token이 새로운 응답의 전반적인 유용성 평가 (IsUSE)
각 세그먼트를 생성하기 위해 SELF-RAG는 여러 문서를 병렬로 처리하고 자체 생성된 reflection token을 사용하여 생성된 작업 출력에 대해 soft or hard constraint를 시행
ablation은 모델의 구성 요소를 수정하고 기존 모델과 성능을 비교하며 각 요소의 중요성 평가하는 방법
•
모든 요소가 모델의 성능에 영향을 끼침
Effects of inference-time customization
•
[ISSUP] 토큰(how supported the output is by text passage)의 가중치를 평가
•
가중치를 늘리면 인용 정확도가 상승
•
Mauve는 줄어듦: when generation gets longer and more fluent, there are often more claims that are not fully supported by citations, consistent with findings
Conclusion
•
SELF-RAG: LLM을 retrieval과 self-reflection으로 LLM 성능을 높이는 프레임워크
•
LM이 retrieve, generate, critique text passage and own generation을 하도록 학습
•
reflection token을 통하여 LM의 행동을 제어
•
SELF-RAG는 다른 LLM보다 성능이 좋음
Kp
Subscribe to 'KPMG Lighthouse'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'KPMG Lighthouse'!