본 논문은 대규모 언어 모델(LLM)의 편향성, 특히 두 개의 참조 개념(예: 긍정적/부정적 감정)과 타겟 개념(예: 리뷰 항목) 간의 비대칭적 상관관계에 초점을 맞춥니다. 기존의 편향성 평가 방법은 많은 인력과 시간을 필요로 하고 제한된 사회적 개념만을 다루는 한계가 있습니다. 이를 극복하기 위해, 본 논문은 모델의 벡터 공간 구조를 기반으로 한 테스트 세트가 필요 없는 편향 분석 프레임워크인 BiasLens를 제안합니다. BiasLens는 개념 활성화 벡터(CAVs)와 희소 오토인코더(SAEs)를 결합하여 해석 가능한 개념 표현을 추출하고, 타겟 개념과 각 참조 개념 간의 표상 유사성 변화를 측정하여 편향성을 정량화합니다. 라벨링된 데이터 없이도 기존 지표와 높은 상관관계(Spearman correlation r > 0.85)를 보이며, 기존 방법으로는 감지하기 어려운 편향(예: 환자의 보험 상태에 따른 의료 진단 편향)을 드러냅니다. 결론적으로 BiasLens는 확장성, 해석성, 효율성을 갖춘 편향 발견 패러다임을 제공하여 LLM의 공정성과 투명성 향상에 기여합니다.
시사점, 한계점
•
시사점:
◦
테스트 세트 없이 LLM의 편향성을 효율적이고 해석 가능하게 분석하는 새로운 프레임워크(BiasLens) 제시
◦
기존 방법으로는 찾기 어려운 새로운 형태의 편향 발견 가능
◦
기존 지표와 높은 상관관계를 보이며 신뢰성 확보
◦
LLM의 공정성 및 투명성 향상에 기여
•
한계점:
◦
BiasLens의 성능은 모델의 벡터 공간 표현에 의존하므로, 모델의 아키텍처나 학습 데이터에 따라 성능이 달라질 수 있음.
◦
모든 종류의 편향을 완벽하게 포착하지 못할 가능성 존재. 특정 유형의 편향에 대한 성능 평가가 더 필요함.