본 연구는 구글에서 개발한 최첨단 대규모 언어 모델(LLM)인 Gemini 2.0 Flash Experimental의 콘텐츠 조정 및 성별 불균형에 대한 편향성을 평가합니다. 이는 저자의 이전 연구에서 검토된 ChatGPT-4o와의 성능 비교를 통해 이루어졌으며, 윤리적 조정 관행의 차이점을 보여줍니다. Gemini 2.0은 성별 편향성이 감소되었으며, 특히 여성 관련 프롬프트의 수락률이 ChatGPT-4o보다 크게 증가했습니다. 성적 콘텐츠에 대해서는 더 관대한 태도를 취하며, 성별 특정 사례를 포함한 폭력적인 프롬프트에 대해서도 상대적으로 높은 수락률을 유지합니다. 하지만 이러한 변화가 개선을 의미하는지는 논쟁의 여지가 있습니다. 성별 편향성은 감소했지만, 남성과 여성 모두를 대상으로 한 폭력적 콘텐츠 허용이라는 비용을 치렀고, 피해를 완화하기보다는 폭력을 정상화할 가능성이 있습니다. 남성 관련 프롬프트는 여전히 여성 관련 프롬프트보다 일반적으로 더 높은 수락률을 받습니다. 이러한 결과는 AI 시스템을 윤리적 기준에 맞추는 복잡성을 강조하며, 특정 편향성 감소에 대한 진전을 보여주는 동시에 모델의 관용에 대한 광범위한 영향에 대한 우려를 제기합니다. 유해한 콘텐츠를 증폭시키지 않으면서 투명성, 공정성 및 포괄성을 보장하는 조정 관행을 달성하기 위해서는 지속적인 개선이 필수적입니다.