Failure of contextual invariance in large language models

작성자

Haebom

카테고리

Empty

저자

Sagar Kumar, Ariel Flint, Luca Maria Aiello, Andrea Baronchelli

💡 개요

본 연구는 대규모 언어 모델(LLM)이 문맥적으로 동등한 담화 속에서도 일관된 출력을 생성한다는 표준 평가 가정을 검증합니다. 통제된 대명사 선택 작업을 통해 최소한의 이론적으로 무의미한 담화 문맥을 도입한 결과, 모델 출력에 크고 체계적인 변화가 발생함을 발견했습니다. 이는 LLM이 문맥에 따라 출력이 크게 달라지며, 이러한 변화는 단순한 문맥 효과나 반복으로 설명되지 않음을 시사합니다.

🔑 시사점 및 한계

•

LLM은 문맥적으로 거의 동일한 구문으로도 문맥 불변성을 위반하며, 이는 모델의 예측 가능성에 대한 근본적인 질문을 제기합니다.

•

기존의 LLM 편향 벤치마킹 및 고위험 환경에서의 배포에 대한 우려를 심화시키며, 모델의 견고성에 대한 재검토를 요구합니다.

•

본 연구는 성별 추론 작업에 국한되었으므로, 다른 유형의 작업에서도 유사한 현상이 나타나는지에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage