🟣 한 번에 요구 사항을 프롬프트에 넣어야 하는 까닭
🟣 한 번에 요구 사항을 프롬프트에 넣어야 하는 까닭 20만 건의 대화가 증명한 것: AI 는 대화를 못 한다 LLM을 "대화형 도구"로 사용하지만, 정작 LLM은 대화에 최적화 되어 있지 않습니다. Microsoft Research와 Salesforce의 공동 연구는 "LLMs Get Lost In Multi-Turn Conversation" 에서 LLM의 치명적 약점을 정량적으로 증명했습니다. Microsoft Research와 Salesforce의 공동 연구 "LLMs Get Lost In Multi-Turn Conversation"은 이 사실을 정량적으로 증명했습니다. 15개 주요 LLM, 20만 건 이상의 대화 시뮬레이션 결과, 멀티턴 대화에서 LLM 성능은 평균 39% 하락했습니다. GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet 등 최신 모델도 예외가 없었고, o3·DeepSeek-R1 같은 추론 특화 모델조차 동일하게 무너졌습니다. 멀티턴 기반의 에이전트나 플랫폼을 사용하다 보면 대화가 길어질수록 답변 품질이 떨어지는 것을 체감하게 되는데, 이유를 데이터 기반으로 설명할 수 있습니다. ✅ 멀티턴 대화에서 품질이 떨어지는 4가지 원인 정보가 부족한 초반에 성급하게 답변 시도 이전의 틀린 답변에 과도하게 의존 중간 턴의 정보를 잊어 버림 지나치게 장황한 응답으로 잘못된 가정 삽입 ✅ Lost in Conversation 현상 대화 초반, 정보가 부족한 상태에서 성급하게 답변을 시도하기 때문입니다. 초기에 세운 가정이 틀리면 이후 턴에서 그 틀린 답변에 오히려 더 의존하는 악순환이 생깁니다. Chain of Thought 같은 단일 추론 기법은 물론, Tree of Thought·Graph of Thought 같은 복합 추론 기법에서도 마찬가지입니다. 한 번 잘못 추론하면 이후 답변도 연쇄적으로 틀려버립니다.
- Sujin_Kang

3






