본 논문은 가정 환경에서 상황 질문을 포함하는 구현 질문 답변(S-EQA) 문제를 제시하고 해결합니다. 기존의 단순한 객체 및 속성을 직접적으로 참조하는 질문("자동차의 색깔은 무엇입니까?")과 달리, 상황 질문("집이 잠자리에 들 준비가 되었습니까?")은 여러 객체 상태(문: 닫힘, 조명: 꺼짐 등)를 정확하게 식별하고 그 상태에 대한 합의에 도달해야 하므로 어렵습니다. 이를 위해 먼저 LLM의 출력을 활용하여 고유한 상황 질문과 해당 합의 객체 정보를 생성하는 새로운 프롬프트-생성-평가(PGE) 방식을 제시합니다. PGE를 사용하여 VirtualHome 시뮬레이터에서 2,000개의 데이터 포인트를 생성한 후, M-Turk에서 대규모 사용자 연구를 통해 정답을 주석 처리했습니다. 이 연구에서 높은 답변 가능성(97.26%)을 통해 LLM이 상황 데이터 생성에 적합함을 확인했습니다. 그러나 LLM을 사용하여 데이터를 평가한 결과, 실제 인간 주석과의 상관관계가 46.2%로 낮게 나타났습니다. 이는 LLM이 상황 데이터 생성에는 능숙하지만 합의에 따라 답변하는 데는 어려움을 겪는다는 것을 시사합니다. 추론을 요청했을 때, LLM은 종종 상식에 반하는 이유를 제시하는 것으로 관찰되었습니다. 마지막으로 PGE를 사용하여 실제 환경에서 상황 데이터를 생성하여 구조화된 장면 그래프가 없을 때 LLM이 객체 상태를 신뢰할 수 있게 생성하는 데 어려움을 겪는 환각 문제를 보여줍니다. 본 논문은 상황 질문의 맥락에서 EQA를 도입한 최초의 연구이자 질문 생성을 위한 생성적 접근 방식을 제시한 최초의 연구입니다. 본 연구를 통해 구현 에이전트의 실제 사용성 향상에 대한 연구를 촉진하고자 합니다.