Can LLMs Explain Themselves Counterfactually?

작성자

Haebom

카테고리

비어 있음

저자

Zahra Dehghanighobadi, Asja Fischer, Muhammad Bilal Zafar

개요

본 논문은 대규모 언어 모델(LLM)의 자체 설명 생성 능력, 특히 자체 생성 반례 설명(SCEs) 생성 능력을 연구합니다. 기존의 post-hoc 설명 방법과 달리, LLM이 스스로 출력에 대한 설명을 생성하는 자체 설명 방식에 초점을 맞추고 있습니다. 다양한 LLM 계열, 모델 크기, 온도 설정 및 데이터셋에 대한 분석을 통해 LLM이 SCE를 생성하는 데 어려움을 겪는 경우가 있으며, 생성하더라도 예측 결과와 반례 추론이 일치하지 않는 경우가 빈번함을 보여줍니다.

시사점, 한계점

•

시사점: LLM의 자체 설명 생성 능력, 특히 SCE 생성 능력에 대한 체계적인 평가 방법을 제시합니다. LLM의 설명 능력에 대한 한계를 명확히 보여줌으로써 향후 연구 방향을 제시합니다.

•

한계점: 본 연구는 특정 유형의 자체 설명인 SCE에만 집중하였습니다. 다른 유형의 자체 설명에 대한 연구가 필요합니다. LLM의 SCE 생성 능력에 영향을 미치는 요인에 대한 더욱 심층적인 분석이 필요합니다. 실제 응용 분야에서의 SCE의 유용성 및 신뢰성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Slashpage로 제작됨