Harness 사용하는 에이전트 만들어보기
Anthropic 엔지니어링 블로그에서 "Harness Design for Long-Running Apps"라는 글을 읽고, 직접 Claude Code용 코딩 에이전트를 만들어봤습니다. 블로그의 핵심 메시지는 간단합니다. "AI 에이전트에게 코드를 짜게 하고, 같은 에이전트에게 평가도 시키면 — 자기 작업을 칭찬하는 결과만 나온다." 그래서 Anthropic이 제안한 구조는 3-Agent Harness입니다. Planner — 요구사항을 받아 제품 스펙을 작성 Generator — Sprint 단위로 코드를 구현 Evaluator — 독립된 컨텍스트에서 코드를 검증 세 에이전트는 서로 직접 대화하지 않습니다. .harness/ 폴더에 spec.md, contract.md, evaluation-report.md 같은 파일을 주고받으며 소통합니다. 마치 비동기 코드 리뷰처럼요. 직접 만들면서 가장 크게 배운 3가지: "생성과 평가의 분리"는 진짜 효과가 있다 블로그에서 "out of the box, Claude is a poor QA agent"라고 했는데, 정말 그렇습니다. 같은 세션에서 평가를 시키면 "잘 했습니다" 일색입니다.
- SangYeon_LeeS





