본 논문은 자율 주행 정책의 안전성 평가를 위해 강화 학습(Reinforcement Learning, RL) 기반 취약점 발견 방법의 한계를 극복하고자 대규모 언어 모델(Large Language Model, LLM)을 활용한 새로운 프레임워크 AED를 제안합니다. AED는 LLM을 이용하여 RL 훈련을 위한 보상 함수를 자동으로 설계하고, 다양한 사고 유형을 고려하여 적대적 정책을 병렬적으로 훈련합니다. 마지막으로, 선호도 기반 학습을 통해 비효과적인 사고를 걸러내고 각 취약점의 효과를 향상시킵니다. 실험 결과, AED는 전문가가 설계한 보상 함수보다 더 광범위한 취약점을 발견하고 공격 성공률을 높여 수동적인 보상 함수 설계의 필요성을 줄이며, 발견되는 취약점의 다양성과 효과성을 향상시킨다는 것을 보여줍니다.