Sign In
해봄의 아카이브

인공지능 리더보드의 허와 실

Haebom
최근들어 각종 인공지능 LLM이 쏟아져 나오고 있습니다. 이들은 주로 리더보드를 통해 자신이 더 높은 점수를 냈다고 자랑하는데 이 점수는 큰의미도 없고 리더보드로 무언가를 평가하는 것 자체가 한계가 명확하다는 것을 다룬 논문이 나왔습니다.
When Benchmarks are Targets - Revealing the Sensitivity of Large Language Model Leaderboards.pdf899.77KB
사실 인공지능의 "성능"이라는 것이 점수형태로 표시 되긴 하지만 이것 역시 평가 방식이 조금씩 다르고 충분히 어뷰징을 할 수 가 있습니다. 쉽게 말하면 점수를 산출하는 '문제'가 있기에 그 문제만 집중적으로 학습을 하고 실제로 고득정을 받는 경우가 왕왕 나타나곤 했습니다. 오죽하면 아래와 같은 글로 해외 커뮤니티에서 이야기도 나온적이 있습니다.

점수만 높으면 장떙?

LLaMA를 필두로 오픈소스 형태의 대규모 언어 모델들이 등장하고 있으며, 이들의 성능을 평가하기 위해 리더보드와 벤치마크가 자주 사용된다는 것 까지는 어쩔 수 없는 흐름 같습니다. 하지만 이러한 평가 방법에는 몇 가지 큰 문제점이 있습니다.
첫째, 리더보드 상의 순위는 종종 소소한 변화에 의해 크게 달라질 수 있으며, 이는 평가의 신뢰성을 저하시킵니다.
둘째, 모델들이 특정 평가 방식에 과도하게 최적화되어 있어, 실제 세계에서의 적용성이 떨어질 수 있습니다.
따라서, 더 정교하고 다양한 평가 방법의 개발이 필요하며, 리더보드 설계 시 이러한 문제들을 고려할 필요가 있습니다. 이는 인공지능 모델의 발전에 있어 중요한 과제로, 더욱 신뢰할 수 있고 현실 세계에 적용 가능한 모델 개발을 위한 방향을 제시합니다.

그래서 뭐로 평가했는데?

심볼 점수화(Symbol Scoring): 질문에 이어 답변 선택지를 제시하고, 모델이 답변 선택지 심볼의 가능성 점수를 바탕으로 답변을 선택합니다. 이 방식은 Hendrycks et al. (2020)에서 사용되었습니다.
하이브리드 점수화(Hybrid Scoring): 질문과 답변 선택지를 제시한 후, 모델이 답변 선택지의 내용의 가능성 점수를 길이로 정규화하여 답변을 선택합니다. Raffel et al. (2020), Sanh et al. (2021), Chowdhery et al. (2022)에서 사용되었습니다.
클로즈 점수화(Cloze Scoring): 질문에 이어 단일 답변 선택지를 제시하고, 모든 답변 선택지에 대한 최대 정규화 가능성 점수를 기준으로 예측을 정의합니다. 이 방식은 Clark et al. (2018a)에서 사용되었습니다.

실제 발생하는 일?

리더보드에서 사용하는 점수 기준을 역으로 학습하여 점수는 높아지지만 실제 성능은 그렇지 않은 예시는 인공지능 모델이 평가 기준에 과도하게 최적화되는 경우를 말합니다. 이러한 상황에서 모델은 특정 평가 메트릭을 '게임'하는 방식으로 학습하여, 실제 문제 해결 능력이나 일반화 능력은 개선되지 않음에도 불구하고 리더보드 상에서는 높은 순위를 차지할 수 있습니다.
예를 들어, 특정 단어 빈도나 문장 구조를 인식하여 그에 맞춰 답을 생성하는 전략을 배우면서, 실제로는 문제의 본질을 이해하고 해결하는 능력은 발전시키지 않는 경우가 있습니다. 이는 리더보드 점수가 모델의 실질적인 성능이나 유용성을 전부 대변하지 못한다는 문제를 드러냅니다.

교훈?

최근 세계적 인공지능 석학들도 리더보드에 대한 피로감을 드러내고 별로 신빙성이 없다는 표현을 하는 이유가 이것일 것 입니다. 개인적으로 이건 한국도 CES 혁신상 수상하는 것 마냥 약간의 뒤틀린 방향으로 가는게 아닌가 합니다.
경제학에선 Goodhart's Law라는게 있습니다. 이는 "측정기준이 목표가 되면 그 기준에 맞춰 행동하는 경향이 생기고, 이는 원래의 목적을 잃어버리게 만드는 부작용을 초래한다" 라는 법칙인데 비단 경제 지표에만 해당되는 말이 아닙니다.
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!
Subscribe