본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력 향상에 따라 잘못된 전제를 포함하는 입력에 대한 의존성이 증가하고, 이로 인해 코드 생성 환각의 가능성이 높아지는 문제를 다룹니다. 이를 해결하기 위해 잘못된 전제를 표적으로 하는 최초의 코드 생성 평가 프레임워크인 Faulty Premises Bench (FPBench)를 제안합니다. FPBench는 세 가지 유형의 잘못된 전제를 체계적으로 구성하고 다차원 평가 지표를 통합하여 15개의 대표적인 LLM을 심층적으로 평가합니다. 주요 결과는 다음과 같습니다: (1) 대부분의 모델은 잘못된 전제 하에서 열악한 추론 능력과 최적이 아닌 코드 생성 성능을 보이며, 오류 감지를 위한 명시적 프롬프트에 크게 의존하고 자기 검토 능력이 제한적입니다. (2) 잘못된 전제는 자원 투자에 대한 수확 체감점을 야기하며, 길이를 무작정 늘리는 것이 품질 향상으로 이어지지 않습니다. (3) 세 가지 유형의 잘못된 전제는 모델에서 서로 다른 결함 패턴을 각각 활성화하여 코드 생성 모델의 인지 메커니즘에서 삼중 분리(triple dissociation)를 보여줍니다. 이 연구는 코드 생성에서 LLM이 전제를 사전에 검증해야 할 필요성을 강조할 뿐만 아니라, 제안된 FPBench 프레임워크와 다차원 평가 시스템을 통해 신뢰할 수 있고 인간 중심적인 코드 생성 모델을 개발하기 위한 이론적 기반과 실용적인 경로를 제공합니다.