본 논문은 명령줄 인터페이스(CLI) 환경에서의 안전한 상호작용을 위해 사전 훈련된 언어 모델(PLM)을 활용하는 연구에 대해 다룹니다. 기존의 대규모 모델 사용의 한계를 극복하고, 소규모 아키텍처에서도 높은 신뢰성을 확보하기 위해 풍부한 CLI 상호작용 데이터셋이 필요하다는 점을 지적합니다. 기존 데이터셋의 부족함을 해결하고자, 명령어 생성을 마르코프 의사결정 과정(MDP)으로 모델링한 Shell Input-Output Environment (ShIOEnv)를 제안합니다. ShIOEnv는 명령어 실행 결과(종료 코드, 출력, 환경적 부작용)를 반환하며, man 페이지에서 추출한 문맥 자유 문법(CFG)을 이용하여 잘못된 인자를 제거합니다. 다양한 탐색 전략(무작위 샘플링, PPO 최적화 샘플링 등)을 통해 고품질 데이터셋을 생성하고, 생성된 데이터셋으로 CodeT5를 미세 조정하여 성능 향상(BLEU-4 기준 85% 향상, PPO 적용 시 추가 26% 향상)을 확인합니다. 마지막으로, ShIOEnv 환경과 생성된 명령어 행동 데이터셋을 공개합니다.