Agent Lightning은 다양한 AI 에이전트에 대해 강화학습(RL) 기반의 대규모 언어 모델(LLM) 훈련을 가능하게 하는 유연하고 확장 가능한 프레임워크입니다. 기존 방법들과 달리 에이전트와 RL 훈련을 긴밀하게 결합하거나 마스킹을 사용한 시퀀스 연결에 의존하지 않고, 에이전트 실행과 훈련 간의 완전한 분리를 달성합니다. 이는 LangChain, OpenAI Agents SDK, AutoGen과 같은 다양한 방법(직접 구축 포함)으로 개발된 기존 에이전트와 거의 코드 수정 없이 통합될 수 있음을 의미합니다. 에이전트 실행을 마르코프 의사결정 과정으로 공식화하여 통합된 데이터 인터페이스를 정의하고, 신용 할당 모듈을 포함하는 계층적 RL 알고리즘인 LightningRL을 제안합니다. 이를 통해 임의의 에이전트가 생성한 궤적을 훈련 전환으로 분해하여 다중 에이전트 시나리오 및 동적 워크플로우와 같은 복잡한 상호 작용 논리를 처리할 수 있습니다. 시스템 설계를 위해 Training-Agent Disaggregation 아키텍처를 도입하고 에이전트 관찰 가능성 프레임워크를 에이전트 런타임에 통합하여 표준화된 에이전트 미세 조정 인터페이스를 제공합니다. text-to-SQL, 검색 증강 생성 및 수학 도구 사용 작업에 대한 실험은 안정적이고 지속적인 개선을 보여주며, 실제 에이전트 훈련 및 배포를 위한 프레임워크의 잠재력을 보여줍니다.