Cursor rules, AGENT.md, CLAUDE.md 정말 도움이 되나? (실무 적용 가이드?)
우연히 흥미로운 영상을 보게 되었습니다. 해당 영상에서는 2개의 논문을 토대로 실험을 하는데 상당히 설득력이 있어 정리해 보았습니다. 저도 어떻게 하면 md 파일을 잘 활용할지 꽤 고민 중인데 영상과 논문을 보고 "이거 뭐 점점 더 어려워지네" 라는 생각이 들었습니다. 결과적으로는 도움이 되는 가이드라인을 제시해 주어서 인상 깊었습니다. 당신의 CLAUDE.md와 AGENT.md를 당장 삭제해야 하는 이유 🗑️ (최신 AI 연구 결과) 최근 AI 개발자들 사이에서 Cursor rules, AGENT.md, CLAUDE.md 같은 프로젝트 컨텍스트(Context) 파일을 길고 꼼꼼하게 작성하는 것이 일종의 '필수 작업'처럼 여겨지고 있습니다. 프로젝트 구조, 사용 스택, 코딩 컨벤션 등을 에이전트에게 미리 알려주면 더 코딩을 잘할 것이라는 믿음 때문이죠. 하지만 유명 개발 유튜버 Theo(t3.gg)는 최근 영상에서 "당신의 CLAUDE.md를 당장 지워라"라고 강력하게 조언합니다. 그의 파격적인 주장은 단순한 느낌이 아니라, 최근 발표된 두 편의 흥미로운 AI 연구 논문에 의해 명확히 뒷받침됩니다. 과연 우리는 AI에게 너무 많은 것을 알려주려다 오히려 AI를 망치고 있는 것은 아닐까요? 📉 연구 1: AGENT.md는 정말 도움이 될까? (arXiv:2602.11988) 첫 번째 논문 "Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?"의 결과는 꽤 충격적입니다. 연구진이 SWE-bench 등 실제 GitHub 이슈 해결 환경에서 코딩 에이전트를 테스트한 결과, 컨텍스트 파일은 에이전트의 성공률을 오히려 떨어뜨리는 경향이 있었습니다. LLM이 자동 생성한 컨텍스트 파일: 성공률 하락 및 추론 비용(Cost) 20% 이상 증가. 개발자가 직접 작성한 파일: 성공률 향상이 4% 내외로 매우 미미함. 왜 이런 일이 발생할까요? AI 에이전트에게 불필요하게 많은 지시사항이 주어지면, 에이전트는 과도하게 탐색(Exploration)하고 불필요한 테스트를 진행하며 '오버씽킹(Overthinking)'을 하게 됩니다. Theo 역시 영상에서 이를 증명합니다. 아무 컨텍스트 파일 없이 에이전트에게 질문했을 때 1분 11초가 걸렸지만, 초기화(init)된 CLAUDE.md 파일이 있을 때는 오히려 1분 29초로 작업 속도가 느려졌고 토큰 사용량(비용)만 20%가량 증가했습니다. 심지어 문서가 업데이트되지 않아 과거의 아키텍처를 가리키고 있다면, 에이전트는 끊임없이 잘못된 방향으로 삽질을 하게 됩니다. 💡 연구 2: 그렇다면 무엇을 알려줘야 하는가? (arXiv:2602.12670) 그렇다면 AI에게 아무런 가이드도 주지 말아야 할까요? 두 번째 논문 "SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks"는 이에 대한 해답을 줍니다. 이 논문은 단순한 레포지토리 구조 요약이 아니라, 특정 작업을 수행하기 위한 절차적 지식(Procedural knowledge)인 '스킬(Skills)'의 효과를 측정했습니다. 결과는 놀라웠습니다. 인간이 직접 큐레이션한 핵심 '스킬' 문서를 제공했을 때 에이전트의 문제 해결 성공률은 평균 16.2%p나 크게 향상되었습니다. (24.3% 40.6%) 심지어 적절한 스킬을 부여받은 작은 모델이, 스킬이 없는 거대 모델을 압도하는 결과도 보여주었습니다. 하지만 여기에도 중요한 조건이 있습니다. 스스로 만들게 하지 마라: LLM에게 스스로 스킬을 생성하라고(Self-generated) 지시한 경우, 성능 향상은커녕 성공률이 평균 1.3%p 하락했습니다. 다다익선이 아니다 (Less is More): 23개의 핵심적이고 간결한 스킬을 제공했을 때 가장 효과적이었습니다. 방대하고 포괄적인 문서(Comprehensive docs)는 에이전트의 인지 과부하를 일으켜 오히려 성능을 떨어뜨렸습니다.
- SangYeon_LeeS






