본 논문은 소프트웨어 코딩 생태계에서 대규모 언어 모델(LLM)의 채택이 증가함에 따라 생성된 코드에 연령, 성별, 인종과 같은 사회적 편향과 불공정성이 포함될 가능성에 대한 문제를 제기합니다. 기존 연구에서 충분히 다루어지지 않은 이 문제는 LLM 기반 소프트웨어 애플리케이션의 무결성, 공정성 및 윤리적 기반과 관련이 있습니다. 본 연구는 코드 생성 작업에 특별히 맞춰 설계된 새로운 편향 테스트 프레임워크를 제시하고, PALM-2-CodeChat-bison, Claude-instant-1, GPT-3.5-turbo, GPT-4-turbo, GPT-4 등 다섯 가지 널리 연구된 LLM을 대상으로 광범위한 실증 연구를 수행합니다. 실험 결과, 생성된 코드에서 편향이 만연하며, 예를 들어 성별에 대한 편향된 동작을 보이는 코드의 비율이 13.47%에서 49.10%에 달하는 것으로 나타났습니다. 또한, 제로샷, 원샷, 퓨샷, 두 가지 사고 과정(CoT) 프롬프트와 피드백 기반 개선 여부를 포함한 다섯 가지 편향 완화 프롬프트 전략을 연구하였으며, 직접적인 프롬프트 엔지니어링 전략은 편향 완화에 효과가 제한적이지만, 테스트 실행 피드백을 활용하면 코드 편향 비율을 크게 줄일 수 있음을 보여줍니다 (예: GPT-4의 경우 59.88%에서 4.79%로 감소).