본 논문은 에이전트 능력을 갖춘 대규모 언어 모델(LLM)의 악의적 사용 가능성 증가 문제를 해결하기 위해, 추상적 행동 사슬을 활용한 안전 정렬 데이터 합성 프레임워크인 AgentAlign을 제안합니다. AgentAlign은 다양한 도구 인스턴스를 사용하는 시뮬레이션 환경에서 행동 사슬을 구현하여, 복잡한 다단계 동작을 포착하는 매우 사실적이고 실행 가능한 명령어를 생성합니다. 또한, 행동 사슬의 비악의적 해석을 통해 이로운 명령어를 비례적으로 합성하여 유용성을 유지하면서 유해성을 최소화합니다. AgentHarm을 이용한 평가 결과, 제안된 방법을 사용하여 세 가지 오픈소스 모델을 미세 조정한 결과, 안전성이 35.8%~79.5% 향상되었고, 유용성은 최소한의 영향을 받거나 오히려 향상되는 것을 보였습니다. 데이터셋과 코드는 모두 공개되었습니다.