Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Are Large Language Models Robust in Understanding Code Against Semantics-Preserving Mutations?

Created by
  • Haebom

저자

Pedro Orvalho, Marta Kwiatkowska

개요

본 논문은 최첨단 대규모 언어 모델(LLM)이 파이썬 프로그램에 대한 추론 능력을 실제로 갖추고 있는지, 아니면 단순히 추측하는지 평가합니다. 변수 이름 바꾸기, 비교 표현식 반전, if-else 분기 바꾸기, for 루프를 while 루프로 변환, 루프 언롤링 등 의미를 보존하는 5가지 코드 변이를 적용하여 6개의 LLM을 평가했습니다. LiveCodeBench를 이용한 전문가 분석과 CruxEval 및 LiveCodeBench를 이용한 예측 안정성 평가를 통해, LLM이 올바른 예측을 하더라도 10%에서 50% 사이의 경우에는 잘못된 추론에 기반한다는 것을 밝혔습니다. 또한 코드 변이에 따라 예측이 자주 바뀌는 것으로 나타나, LLM이 아직 안정적이고 의미적으로 기반한 추론을 보이지 않는다는 것을 확인했습니다.

시사점, 한계점

시사점: LLM의 코드 이해 능력에 대한 심층적인 분석을 통해, 정확도만으로는 LLM의 추론 능력을 제대로 평가할 수 없다는 점을 강조합니다. LLM이 표면적인 패턴 인식에 의존하여 정답을 도출할 수 있음을 보여주며, 신뢰할 수 있는 프로그래밍 도구로서의 LLM 활용을 위해서는 추론 과정의 투명성 및 안정성 확보가 필수적임을 시사합니다.
한계점: 특정한 코드 변이 유형과 제한된 수의 LLM에 대한 평가 결과를 바탕으로 일반화하기 어려울 수 있습니다. 인간 전문가 분석의 주관성이 결과에 영향을 미칠 수 있으며, 더 다양한 종류의 코드 및 LLM에 대한 추가적인 연구가 필요합니다. 평가에 사용된 코드 변이가 LLM의 추론 능력을 포괄적으로 평가하기에 충분한지에 대한 검토가 필요합니다.
👍