인공지능 리더보드의 허와 실
Haebom
최근들어 각종 인공지능 LLM이 쏟아져 나오고 있습니다. 이들은 주로 리더보드를 통해 자신이 더 높은 점수를 냈다고 자랑하는데 이 점수는 큰의미도 없고 리더보드로 무언가를 평가하는 것 자체가 한계가 명확하다는 것을 다룬 논문이 나왔습니다.
사실 인공지능의 "성능"이라는 것이 점수형태로 표시 되긴 하지만 이것 역시 평가 방식이 조금씩 다르고 충분히 어뷰징을 할 수 가 있습니다. 쉽게 말하면 점수를 산출하는 '문제'가 있기에 그 문제만 집중적으로 학습을 하고 실제로 고득정을 받는 경우가 왕왕 나타나곤 했습니다. 오죽하면 아래와 같은 글로 해외 커뮤니티에서 이야기도 나온적이 있습니다.
점수만 높으면 장떙?
LLaMA를 필두로 오픈소스 형태의 대규모 언어 모델들이 등장하고 있으며, 이들의 성능을 평가하기 위해 리더보드와 벤치마크가 자주 사용된다는 것 까지는 어쩔 수 없는 흐름 같습니다. 하지만 이러한 평가 방법에는 몇 가지 큰 문제점이 있습니다.
첫째, 리더보드 상의 순위는 종종 소소한 변화에 의해 크게 달라질 수 있으며, 이는 평가의 신뢰성을 저하시킵니다.
둘째, 모델들이 특정 평가 방식에 과도하게 최적화되어 있어, 실제 세계에서의 적용성이 떨어질 수 있습니다.
따라서, 더 정교하고 다양한 평가 방법의 개발이 필요하며, 리더보드 설계 시 이러한 문제들을 고려할 필요가 있습니다. 이는 인공지능 모델의 발전에 있어 중요한 과제로, 더욱 신뢰할 수 있고 현실 세계에 적용 가능한 모델 개발을 위한 방향을 제시합니다.
그래서 뭐로 평가했는데?
심볼 점수화(Symbol Scoring): 질문에 이어 답변 선택지를 제시하고, 모델이 답변 선택지 심볼의 가능성 점수를 바탕으로 답변을 선택합니다. 이 방식은 Hendrycks et al. (2020)에서 사용되었습니다.
하이브리드 점수화(Hybrid Scoring): 질문과 답변 선택지를 제시한 후, 모델이 답변 선택지의 내용의 가능성 점수를 길이로 정규화하여 답변을 선택합니다. Raffel et al. (2020), Sanh et al. (2021), Chowdhery et al. (2022)에서 사용되었습니다.
클로즈 점수화(Cloze Scoring): 질문에 이어 단일 답변 선택지를 제시하고, 모든 답변 선택지에 대한 최대 정규화 가능성 점수를 기준으로 예측을 정의합니다. 이 방식은 Clark et al. (2018a)에서 사용되었습니다.
실제 발생하는 일?
리더보드에서 사용하는 점수 기준을 역으로 학습하여 점수는 높아지지만 실제 성능은 그렇지 않은 예시는 인공지능 모델이 평가 기준에 과도하게 최적화되는 경우를 말합니다. 이러한 상황에서 모델은 특정 평가 메트릭을 '게임'하는 방식으로 학습하여, 실제 문제 해결 능력이나 일반화 능력은 개선되지 않음에도 불구하고 리더보드 상에서는 높은 순위를 차지할 수 있습니다.
예를 들어, 특정 단어 빈도나 문장 구조를 인식하여 그에 맞춰 답을 생성하는 전략을 배우면서, 실제로는 문제의 본질을 이해하고 해결하는 능력은 발전시키지 않는 경우가 있습니다. 이는 리더보드 점수가 모델의 실질적인 성능이나 유용성을 전부 대변하지 못한다는 문제를 드러냅니다.
교훈?
최근 세계적 인공지능 석학들도 리더보드에 대한 피로감을 드러내고 별로 신빙성이 없다는 표현을 하는 이유가 이것일 것 입니다. 개인적으로 이건 한국도 CES 혁신상 수상하는 것 마냥 약간의 뒤틀린 방향으로 가는게 아닌가 합니다.
경제학에선 Goodhart's Law라는게 있습니다. 이는 "측정기준이 목표가 되면 그 기준에 맞춰 행동하는 경향이 생기고, 이는 원래의 목적을 잃어버리게 만드는 부작용을 초래한다" 라는 법칙인데 비단 경제 지표에만 해당되는 말이 아닙니다.
👍
7
/haebom
Subscribe
딴짓의 미학
현대 사회에서 ‘딴짓’이라는 개념은 그 의미와 가치가 재평가되고 있습니다. 딴 짓이란 일반적으로 “다른 짓”이라는 말에서 온 표현으로 원래 해야하는 일 외의 다른 일을 하는 것을 의미하는 부정적 표현으로 사용되었습니다. 하지만, 최근 들어 딴 짓이 오히려 생산성을 늘리며 업무적으로 환기를 시켜 정신 건강에도 좋다는 이야기가 자주 나오고 있습니다. 개인적으로 딴 짓을 해야하는 이유를 자기합리화 해봅니다. 딴 짓, 일상의 탈출구 우리는 종종 반복되는 일상과 업무에 치여 살아가며, 때로는 스스로를 잃어버린 듯한 느낌을 받곤 합니다. 이때 딴짓은 일상에서 잠시 벗어나 자신만의 시간을 갖게 해주며, 새로운 활동을 통해 다른 자아를 발견할 수 있는 기회를 제공합니다. 취미 생활, 산책, 독서와 같은 활동은 우리에게 새로운 영감을 주고, 일상의 스트레스에서 벗어나게 합니다. 창의력의 샘, 딴 짓 창의력은 새로운 문제 해결 방법을 찾아내거나 독창적인 아이디어를 생각해 내는 데 필수적입니다. 딴짓은 우리의 뇌에 새로운 자극을 주어 창의적 사고를 자극합니다. 예를 들어, 새로운 환경에서의 경험이나, 평소와 다른 활동에 참여함으로써 우리는 기존에 가지고 있던 생각의 틀을 벗어나 새로운 아이디어를 생각해 낼 수 있습니다. 정신 건강과의 긍정적 관계 정신 건강은 우리 삶의 질을 결정짓는 중요한 요소 중 하나입니다. 딴짓은 우리에게 정신적인 휴식을 제공하며, 일상의 압박감과 스트레스에서 잠시나마 벗어날 수 있는 피난처 역할을 합니다. 이는 우리가 더 긍정적인 마음가짐을 가지고 일상으로 돌아갈 수 있게 도와주며, 전반적인 정신 건강에 긍정적인 영향을 미칩니다. 딴 짓의 미학 딴 짓의 미학은 우리에게 삶의 다양한 측면에서 새로운 가치를 발견할 수 있게 해줍니다. 이는 단순히 시간을 보내는 행위가 아니라, 자신을 돌아보고, 새로운 가능성을 탐색하며, 삶을 더욱 풍요롭게 만드는 과정입니다. 딴 짓을 통해 우리는 자신의 열정을 발견하고, 삶에 대한 새로운 시각을 갖게 됩니다. 딴짓은 단순한 시간 낭비가 아니라, 삶의 질을 향상시키고, 창의력을 자극하며, 정신 건강을 유지하는 데 중요한 역할을 합니다. 따라서 우리는 일상에서 벗어난 이 소중한 순간들을 소중히 여기고, 딴짓의 순간을 통해 더욱 풍부하고 의미 있는 삶을 살아로 살아갈 수 있습니다. 이를 통해 우리는 일상의 단조로움을 벗어나, 삶을 더욱 풍부하게 만드는 새로운 방법을 발견할 수 있습니다. 딴짓의 순간들이 우리에게 제공하는 창의력, 정신 건강의 개선, 그리고 삶의 질 향상은 일상을 넘어서는 가치를 지닙니다. 이는 우리 모두가 간과해서는 안 될 중요한 삶의 일부분입니다.
Haebom
습관을 유지하는데 가장 좋은 전략 : 명상
새해가 밝으면, 우리는 종종 새로운 결심을 하게 됩니다. 마라톤 완주, 영업 목표 달성과 같은 목표들은 우리를 설레게 하지만, 실제로 이들을 달성하기는 쉽지 않습니다. 이러한 실패의 주된 원인은 목표 설정 자체가 우리의 행동 변화를 이끌어내지 못하기 때문일 수 있습니다. 그렇기에 목표보다는 습관 형성에 초점을 맞추는 것이 더욱 효과적입니다. 습관 형성의 방법은 사실은 이미 습관에 관련던 수많은 책에서 나오고 있어서 자세히 설명하진 않겠습니다. 습관 형성 방법 시중에 나와있는 습관에 관련 된 책을 세 줄 요약하면 다음과 같습니다. 작은 습관 형성: 달성할 수 있는 습관부터 시작하여 점차 확장하는 것으로 시작히기. 습관 유지와 강화: 일시적인 실패에 좌절하지 말고 실패하더라도 다음 날 다시 지속하기. 습관 수 증가: 첫 번째 습관을 성공적으로 정착시킨 후, 새로운 습관을 추가하기. 이게 말이나 글로 들으면 '참 쉽죠?' 느낌인데 실제 하려고 하면 그렇게 안되는 경우가 더 많습니다. 애초에 모두가 저럴 수 있으면 모두가 초인이나 흔히 말하는 갓생을 살고 있겠죠. 명상을 통한 습관 형성 이 과정에서 명상은 매우 중요한 역할을 합니다. 명상은 단순히 정신을 집중시키거나 휴식을 취하는 것 이상의 가치를 가지며, 우리가 일상에서 마주치는 지연 행동과 같은 문제를 해결하는 데 있어 실용적인 도구로 자리매김하고 있습니다. 뭔가 명상하면 가부좌를 틀고 눈을 감고 뭐가 조용하고 경건하게 해야할 것 같지만 꼭 그런것은 아닙니다. 명상은 출퇴근 지하철, 집, 공원 등 어디서든 할 수 있습니다. 여기서 말하는 명상은 불필요한 자극을 줄이고 스스로 생각하는 시간이라고 봐주시면 좋겠습니다. 부정적인 생각 식별과 멈춤: 명상은 내면을 들여다보고 부정적인 생각이나 자기 비판을 식별하고 멈출 수 있는 능력을 키웁니다. 의식적인 생각 다루기: 우리 내면의 숨겨진 생각이나 감정을 의식적으로 다룰 수 있게 하며, 이는 지연 행동을 줄이는 데 도움을 줍니다. 창의적 해결책 모색: 명상은 문제 해결 방법에 대한 창의적인 사고를 촉진하여, 지연 행동을 줄이는 데 기여합니다. 실제로 정신과, 심리상담 등에서도 명상과 산책은 좋은 치료방법으로 사용됩니다. 이는 정신적으로 피해 혹은 압박을 받는 이 뿐만아니라 일상에서도 무척 유용합니다. 명상은 우리가 장기적으로 유지할 수 있는 건강하고 효율적인 생활 방식을 구축하는 데 중요한 역할을 합니다. 따라서, 명상을 통해 습관을 형성하고, 이를 통해 결국 우리의 목표를 달성하며 심지어 그 목표를 초과할 수 있는 가능성을 열어줍니다. 결론적으로, 습관 형성에 명상을 통합하는 것은 우리가 목표에 집착하는 대신 실제 행동 변화에 집중할 수 있게 하며, 이는 우리가 더 건강하고 효율적인 삶을 영위하는 데 결정적인 도움이 됩니다. 명상은 초기에 어려울 수 있으나, 가이드된 명상 앱과 같은 도구를 활용하면 시작하기가 더 쉬워집니다. 오늘부터 명상을 시작해보는 것은 어떨까요?
Haebom
OKR...우리가 하고 있는게 맞나요?
OKR 시스템은 1970년대 인텔의 앤드루 그로브에 의해 도입되었고, 구글을 통해 널리 알려지게 되었습니다. 이 시스템은 목표 설정과 그에 대한 진행 상황 측정을 위한 프레임워크를 제공합니다. 하지만, OKR 시스템은 여러 가지 문제점을 내포하고 있습니다. 예전에 개인적으로 작성한 OKR 글도 있지만 사실 이 방법론엔 문제가 많습니다. 목표 달성률 70% 설정의 문제: OKR 시스템은 목표의 70%만 달성하도록 권장합니다. 이는 도전적인 목표를 설정하라는 의도에서 비롯된 것이지만, 실제로는 완성도 높은 결과물을 만드는 데 있어 장애가 될 수 있습니다. 특히, 일부 작업은 100% 완료되지 않으면 가치가 없어지는 경우가 많습니다. 측정 문제의 복잡성: OKR 시스템은 측정 가능한 핵심 결과를 강조합니다. 그러나, 실제로 중요한 작업의 성과를 측정하기 위한 메트릭스를 개발하고 유지하는 것은 매우 복잡하고 번거로운 과정입니다. 또한, 일부 메트릭스는 실제 작업과 거의 관련이 없거나, 오해의 소지가 있습니다. OKR의 하향식 접근 방식: OKR 시스템은 CEO부터 시작하여 조직의 모든 단계에 걸쳐 목표를 설정하는 하향식 접근 방식을 취합니다. 이러한 접근 방식은 연구나 실험과 같은 활동에 대한 공간을 제공하지 않으며, 빠르게 변화하는 환경에 유연하게 대응하기 어렵게 만듭니다. 문화적 저항과 실행의 어려움: OKR 시스템의 핵심 가치와 원칙들은 이상적으로 들리지만, 실제 실행 과정에서는 조직의 문화와 충돌할 수 있습니다. 또한, 성과 평가 시점에 원래의 목표들을 변경해야 하는 상황이 발생할 경우, 이는 종종 실패로 간주됩니다. 관리 도구로서의 한계: 많은 관리자들이 OKR을 계획 수립과 동일시하며 스프레드시트와 같은 도구에 의존합니다. (최근엔 Notion, Asana, Swit 등도 비슷한 기능을 제공합니다.) 그러나, 이러한 접근 방식은 OKR의 본래 목적인 '도전적인 목표를 설정하고 이를 통해 영감을 얻는 것'과는 거리가 멉니다. 쓰다 보니 이것도 Goodhart's law의 문제라고할 수 있겠습니다. OKR 시스템은 목표 설정과 진행 상황의 측정을 위한 유용한 프레임워크를 제공할 수 있지만, 그 실행에 있어서는 여러 가지 문제점이 드러납니다. 이러한 문제점들은 조직의 문화, 구조, 그리고 개인의 업무 방식에 따라 더욱 복잡해질 수 있습니다. 따라서, OKR 시스템을 채택하기 전에, 그 한계와 실행 과정에서 발생할 수 있는 문제점들을 신중하게 고려할 필요가 있습니다.
Haebom