Agent AI2THOR 회고 및 정리
주제 선정 AI@Sogang에서 프로젝트 팀빌딩을 위해 여러 주제를 둘러보던 중, 가장 흥미로워 보이는 주제를 골랐다. Vision처리와 action, 그리고 RAG로 에이전트를 개선한다고? 물론 Vision 관련 프로젝트 경험도 없었고, 시뮬레이션 경험도 없었지만 공부한다는 마음으로 시작해보았다. 우리의 초기 가설과 목표는 다음과 같았다. “RAG 를 기억장치로 활용해서 성공-실패 패턴을 저장하면, 파인튜닝 없이도 에이전트를 개선할 수 있지 않을까?” 전체 흐름 1. 초반: 플랫폼과 문제 정의를 정하자 1주차에는 Habitat와 AI2-THOR를 비교한 뒤, 객체 조작 중심 실험에는 AI2-THOR가 더 적합하다는 결론을 내렸다. 동시에 ALFRED benchmark를 핵심 과제로 보고, planner-executor 구조와 long-term memory 가능성을 조사했다. 이 시기에는 Planner, Executor, Verifier, Memory/RAG 모듈이 분리된 형태의 아키텍처를 많이 상상했고, "메타데이터를 최대한 덜 쓰면서도 agent가 과거 관찰을 기억하게 만들 수 있을까"가 중요한 질문이었다. 2주차와 3주차에는 EPO, RoboGPT, SCOUT, RLEF, CAPEAM 같은 선행 연구를 조사하면서, 단순히 논문을 읽는 수준을 넘어서 우리 구조에 무엇을 가져올 수 있을지를 계속 비교했다. 이 과정에서 팀의 관심사는 크게 세 가지로 모였다. subgoal을 계층적으로 나눌 것인가 현재 시점에서 greedy하게 행동할 것인가? 아니면 Plan 후 따를 것인가. RAG를 장기기억으로 둘 것인가, 혹은 episode 내부 메모리처럼 쓸 것인가 특히 EPO의 planner/controller 분리, RoboGPT의 semantic map, SCOUT의 spatial map, RLEF의 reward 관점은 이후 논의의 기준점이 됐다. 2. 중반: 무엇을 학습할지보다 무엇을 기억할지를 정하자 4주차와 5주차쯤부터는 DPO나 reward model 같은 학습 방법론 자체보다, RAG에 어떤 형태의 정보를 저장해야 실제로 agent가 덜 헤매는지가 더 중요한 문제라는 공감대가 생겼다. 성공/실패 trajectory 전체를 넣을지, 부분 성공을 넣을지, 공간 정보만 저장할지, 상호작용 정보까지 저장할지 계속 논의했다.
- AI
- 예준천예