본 논문은 Transformer의 In-context learning (ICL) 능력이 Gradient-descent 알고리즘 수행 능력에 기반한다는 기존 연구를 확장하여, Transformer가 Learning-to-optimize (L2O) 알고리즘을 수행할 수 있음을 보여줍니다. 특히, LASSO로 공식화된 ICL sparse recovery 작업에서 K-레이어 Transformer가 K에 선형적인 수렴 속도를 갖는 L2O 알고리즘을 수행할 수 있음을 증명합니다. 이는 표준 gradient-descent 알고리즘으로는 달성할 수 없는, 적은 레이어만으로도 우수한 ICL 성능을 보이는 Transformer의 특성을 새롭게 설명합니다. 또한, 기존 L2O 알고리즘과 달리 훈련에 사용된 측정 행렬과 테스트에 사용된 측정 행렬이 일치할 필요가 없으며, 훈련된 Transformer는 서로 다른 측정 행렬로 생성된 sparse recovery 문제를 해결할 수 있습니다. 더 나아가, Transformer는 L2O 알고리즘으로서 훈련 작업에 포함된 구조적 정보를 활용하여 ICL 중 수렴 속도를 높이고, 기존 L2O 알고리즘이 어려움을 겪거나 실패하는 다양한 길이의 데모 쌍에 대해 일반화할 수 있습니다. 이러한 이론적 발견은 실험 결과에 의해 뒷받침됩니다.