Sign In

Algorithmic Fragility and Persona Bias in LLM - Generated Autistic Communication

Author
  • Haebom
Category
Empty

저자

Naba Rizvi, Mohammed Rizvi, Harper Strickland, Saleha Ahmedi, Nedjma Ousidhoum

💡 개요

본 연구는 LLM의 안전 정렬 과정에서 발생하는 신경정형적(neurotypical) 편향이 소외된 의사소통, 특히 자폐인(autistic)의 의사소통 표현을 어떻게 왜곡하는지 탐구합니다. 자폐인 및 신경정형인 페르소나를 부여하여 LLM이 자폐인의 자연스러운 대화를 재작성하도록 유도한 결과, 자폐인 페르소나로 재작성된 내용이 의미는 유사하더라도 어휘 형식과 감정 표현에서 현저히 다르게 나타남을 발견했습니다. 또한, 대부분의 모델은 두 페르소나 간의 생성 결과가 거의 동일하게 수렴하는 경향을 보였으며, 이는 프롬프트 엔지니어링만으로는 해결하기 어려운 근본적인 표현의 격차를 시사합니다.

🔑 시사점 및 한계

LLM의 안전 정렬이 의도치 않게 소외된 그룹의 의사소통 표현을 신경정형적으로 단순화하고 왜곡할 수 있습니다.
LLM은 페르소나별 차이를 유의미하게 구분하기보다 유사한 결과물을 생성하는 경향이 있으며, 이는 자폐인과 같은 특정 커뮤니티의 복잡한 의사소통 방식을 제대로 반영하지 못함을 의미합니다.
현재의 정렬 훈련 방식은 질적 분석을 통해서만 드러나는 페르소나별 생성 과정의 붕괴를 야기하며, 프롬프트 엔지니어링으로는 이러한 표현의 근본적인 격차를 해소하기 어렵습니다.
자폐인 커뮤니티 내부의 지식이 LLM의 분류 결과와 체계적으로 반전되는 현상을 확인함으로써, LLM 기반의 평가나 분류가 해당 커뮤니티의 관점과 일치하지 않을 수 있음을 보여줍니다.
본 연구에서 제안된 다중 에이전트 질적 분석 프레임워크는 LLM 생성의 잠재적 문제점을 드러내는 데 효과적인 도구가 될 수 있습니다.
향후 연구에서는 이러한 페르소나별 생성 붕괴의 메커니즘을 더 깊이 파악하고, LLM이 다양한 의사소통 스타일을 보다 정확하고 공정하게 이해하고 생성하도록 돕는 새로운 정렬 전략을 개발할 필요가 있습니다.
👍