해봄의 아카이브

인공지능 리더보드의 허와 실

Haebom

Feb 10, 20242y ago

최근들어 각종 인공지능 LLM이 쏟아져 나오고 있습니다. 이들은 주로 리더보드를 통해 자신이 더 높은 점수를 냈다고 자랑하는데 이 점수는 큰의미도 없고 리더보드로 무언가를 평가하는 것 자체가 한계가 명확하다는 것을 다룬 논문이 나왔습니다.

When Benchmarks are Targets - Revealing the Sensitivity of Large Language Model Leaderboards.pdf899.77KB

사실 인공지능의 "성능"이라는 것이 점수형태로 표시 되긴 하지만 이것 역시 평가 방식이 조금씩 다르고 충분히 어뷰징을 할 수 가 있습니다. 쉽게 말하면 점수를 산출하는 '문제'가 있기에 그 문제만 집중적으로 학습을 하고 실제로 고득정을 받는 경우가 왕왕 나타나곤 했습니다. 오죽하면 아래와 같은 글로 해외 커뮤니티에서 이야기도 나온적이 있습니다.

점수만 높으면 장떙?

Open LLM leaderboard is disgusting

reddit.com

LLaMA를 필두로 오픈소스 형태의 대규모 언어 모델들이 등장하고 있으며, 이들의 성능을 평가하기 위해 리더보드와 벤치마크가 자주 사용된다는 것 까지는 어쩔 수 없는 흐름 같습니다. 하지만 이러한 평가 방법에는 몇 가지 큰 문제점이 있습니다.

첫째, 리더보드 상의 순위는 종종 소소한 변화에 의해 크게 달라질 수 있으며, 이는 평가의 신뢰성을 저하시킵니다.

둘째, 모델들이 특정 평가 방식에 과도하게 최적화되어 있어, 실제 세계에서의 적용성이 떨어질 수 있습니다.

따라서, 더 정교하고 다양한 평가 방법의 개발이 필요하며, 리더보드 설계 시 이러한 문제들을 고려할 필요가 있습니다. 이는 인공지능 모델의 발전에 있어 중요한 과제로, 더욱 신뢰할 수 있고 현실 세계에 적용 가능한 모델 개발을 위한 방향을 제시합니다.

그래서 뭐로 평가했는데?

•

심볼 점수화(Symbol Scoring): 질문에 이어 답변 선택지를 제시하고, 모델이 답변 선택지 심볼의 가능성 점수를 바탕으로 답변을 선택합니다. 이 방식은 Hendrycks et al. (2020)에서 사용되었습니다.

Aligning AI With Shared Human Values

We show how to assess a language model's knowledge of basic concepts of morality. We introduce the ETHICS dataset, a new benchmark that spans concepts in justice, well-being, duties, virtues, and...

arxiv.org

•

하이브리드 점수화(Hybrid Scoring): 질문과 답변 선택지를 제시한 후, 모델이 답변 선택지의 내용의 가능성 점수를 길이로 정규화하여 답변을 선택합니다. Raffel et al. (2020), Sanh et al. (2021), Chowdhery et al. (2022)에서 사용되었습니다.

Pretrained Transformers Improve Out-of-Distribution Robustness

Dan Hendrycks, Xiaoyuan Liu, Eric Wallace, Adam Dziedzic, Rishabh Krishnan, Dawn Song. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020.

aclanthology.org

•

클로즈 점수화(Cloze Scoring): 질문에 이어 단일 답변 선택지를 제시하고, 모든 답변 선택지에 대한 최대 정규화 가능성 점수를 기준으로 예측을 정의합니다. 이 방식은 Clark et al. (2018a)에서 사용되었습니다.

GitHub - hendrycks/ethics: Aligning AI With Shared Human Values (ICLR 2021)

Aligning AI With Shared Human Values (ICLR 2021). Contribute to hendrycks/ethics development by creating an account on GitHub.

github.com

실제 발생하는 일?

리더보드에서 사용하는 점수 기준을 역으로 학습하여 점수는 높아지지만 실제 성능은 그렇지 않은 예시는 인공지능 모델이 평가 기준에 과도하게 최적화되는 경우를 말합니다. 이러한 상황에서 모델은 특정 평가 메트릭을 '게임'하는 방식으로 학습하여, 실제 문제 해결 능력이나 일반화 능력은 개선되지 않음에도 불구하고 리더보드 상에서는 높은 순위를 차지할 수 있습니다.

예를 들어, 특정 단어 빈도나 문장 구조를 인식하여 그에 맞춰 답을 생성하는 전략을 배우면서, 실제로는 문제의 본질을 이해하고 해결하는 능력은 발전시키지 않는 경우가 있습니다. 이는 리더보드 점수가 모델의 실질적인 성능이나 유용성을 전부 대변하지 못한다는 문제를 드러냅니다.