Do LLMs "know" internally when they follow instructions?
Created by
Haebom
저자
Juyeon Heo, Christina Heinze-Deml, Oussama Elachqar, Kwan Ho Ryan Chan, Shirley Ren, Udhay Nallasamy, Andy Miller, Jaya Narain
개요
본 논문은 대규모 언어 모델(LLM)의 지시사항 준수 능력 향상을 위해, LLM의 내부 상태와 지시사항 준수 성공 여부 간의 관계를 조사합니다. 연구진은 LLM의 입력 임베딩 공간에서 지시사항 준수 성공 여부를 예측하는 "지시사항 준수 차원"을 발견했습니다. 이 차원은 새로운 작업에는 일반화되지만, 새로운 지시 유형에는 일반화되지 않는다는 것을 발견했습니다. 또한, 이 차원을 따라 표현을 수정하면 무작위 변경보다 지시사항 준수 성공률이 향상되며, 응답 품질은 저하되지 않는다는 것을 보여줍니다. 마지막으로, 이 차원은 작업의 고유한 난이도나 지시사항보다는 프롬프트의 어구와 더 밀접한 관련이 있음을 밝혔습니다. 이 연구는 LLM의 지시사항 준수 내부 작동 방식에 대한 통찰력을 제공하여 신뢰할 수 있는 LLM 에이전트 개발의 길을 열어줍니다.
시사점, 한계점
•
시사점:
◦
LLM의 지시사항 준수 성공 여부를 예측하는 "지시사항 준수 차원"을 발견하여, LLM의 내부 작동 방식에 대한 이해를 증진시켰습니다.
◦
해당 차원을 조작하여 지시사항 준수 성공률을 향상시킬 수 있는 방법을 제시했습니다.
◦
프롬프트의 어구가 LLM의 지시사항 준수에 중요한 역할을 한다는 것을 밝혔습니다.
•
한계점:
◦
"지시사항 준수 차원"은 새로운 작업에는 일반화되지만, 새로운 지시 유형에는 일반화되지 않습니다.
◦
본 연구는 프롬프트의 어구와 지시사항 준수 간의 관계에 초점을 맞추었지만, 작업의 고유한 난이도나 다른 요인들의 영향은 추가적인 연구가 필요합니다.