본 논문은 여러 프로그래밍 언어를 사용하는 다국어 프로그래밍에서 발생하는 언어 간 버그(CLB) 탐지를 위한 사전 훈련된 코드 언어 모델(CodeLM)의 잠재력을 조사한다. 연구진은 CLB 탐지 도구인 CLCFinder를 개발하고, Python-C/C++, Java-C/C++, Python-Java 세 가지 언어 조합과 아홉 가지 상호 작용 유형을 포함하는 CLB 데이터셋을 구축했다. 13개의 CodeLM을 이 데이터셋으로 미세 조정하여 성능을 평가하고, 데이터셋 크기, 토큰 시퀀스 길이, 코드 주석의 영향을 분석했다. 결과적으로 미세 조정 전에는 모든 CodeLM의 성능이 저조했지만, 미세 조정 후에는 성능이 향상되었으며, UniXcoder-base가 가장 높은 F1 점수(0.7407)를 달성했다. 소규모 미세 조정 CodeLM이 대규모 모델보다 성능이 더 좋은 경향을 보였고, 단일 언어 버그 데이터셋으로 미세 조정된 CodeLM은 CLB 탐지에서 저조한 성능을 나타냈다. 미세 조정 데이터셋 크기 증가는 성능을 크게 향상시켰지만, 더 긴 토큰 시퀀스는 성능 향상에 기여하지 않았다. 코드 주석의 영향은 모델에 따라 달랐다.