Algorithmic Fragility and Persona Bias in LLM - Generated Autistic Communication

Author

Haebom

저자

Naba Rizvi, Mohammed Rizvi, Harper Strickland, Saleha Ahmedi, Nedjma Ousidhoum

💡 개요

본 연구는 LLM의 안전 정렬 과정에서 발생하는 신경정형적(neurotypical) 편향이 소외된 의사소통, 특히 자폐인(autistic)의 의사소통 표현을 어떻게 왜곡하는지 탐구합니다. 자폐인 및 신경정형인 페르소나를 부여하여 LLM이 자폐인의 자연스러운 대화를 재작성하도록 유도한 결과, 자폐인 페르소나로 재작성된 내용이 의미는 유사하더라도 어휘 형식과 감정 표현에서 현저히 다르게 나타남을 발견했습니다. 또한, 대부분의 모델은 두 페르소나 간의 생성 결과가 거의 동일하게 수렴하는 경향을 보였으며, 이는 프롬프트 엔지니어링만으로는 해결하기 어려운 근본적인 표현의 격차를 시사합니다.

🔑 시사점 및 한계

•

LLM의 안전 정렬이 의도치 않게 소외된 그룹의 의사소통 표현을 신경정형적으로 단순화하고 왜곡할 수 있습니다.

•

LLM은 페르소나별 차이를 유의미하게 구분하기보다 유사한 결과물을 생성하는 경향이 있으며, 이는 자폐인과 같은 특정 커뮤니티의 복잡한 의사소통 방식을 제대로 반영하지 못함을 의미합니다.

•

현재의 정렬 훈련 방식은 질적 분석을 통해서만 드러나는 페르소나별 생성 과정의 붕괴를 야기하며, 프롬프트 엔지니어링으로는 이러한 표현의 근본적인 격차를 해소하기 어렵습니다.

•

자폐인 커뮤니티 내부의 지식이 LLM의 분류 결과와 체계적으로 반전되는 현상을 확인함으로써, LLM 기반의 평가나 분류가 해당 커뮤니티의 관점과 일치하지 않을 수 있음을 보여줍니다.

•

본 연구에서 제안된 다중 에이전트 질적 분석 프레임워크는 LLM 생성의 잠재적 문제점을 드러내는 데 효과적인 도구가 될 수 있습니다.

•

향후 연구에서는 이러한 페르소나별 생성 붕괴의 메커니즘을 더 깊이 파악하고, LLM이 다양한 의사소통 스타일을 보다 정확하고 공정하게 이해하고 생성하도록 돕는 새로운 정렬 전략을 개발할 필요가 있습니다.

PDF 보기

Made with Slashpage