what I read & watch

노정석 팟캐스트 : Bitter Lesson

예

예준천

2025년 10월 31일8달 전

카테고리

Bitter Lesson이란

AI 연구 초기에는 체스 전략이나 문법 규칙처럼 도메인 지식, 더 구체적으로는 인간의 지식을 AI에 주입하는 방식으로 학습시키고자 했다.

이러한 방법론들은 단기적으론 성과가 있었다. baseline보다 더 좋은 성능을 가졌지만, 결국 승리하는건 방대한 computation을 기반으로 학습과 탐색의 일반적 방법론이었다.
bitter lesson 번역

Andrej Karpathy가 테슬라의 FSD 팀 갈아엎은 사례. 온갖 휴리스틱과 rule base들의 집약체와 여러 비전 모델들을 Singular Learning Problem으로 바꾸면서 연산자원을 투입했고, 문제가 풀려버림.

LLM은 mimicry Engines일 뿐이야

LLM 진영은 이 Bitter lesson의 computation의 증가가 올바른 방향이라는 서튼의 말을 보고 아군이라 여겼지만, 서튼은 다른 생각을 가지고 있었고 LLM이 막다른 길에 왔다고 이야기한다.

목적을 가지고 세상과 상호작용. 목적에 부합하면 올바른 예측, 아니면 올바르지 않은 예측.

그런 측면에서 LLM의 다음 토큰 예측 문제는 어떤 액션이 올바른지 아닌지가 아니고 모델이 목적을 가진 것도 아님.

pre-training 은 인터넷 자료를 사용하는데, 이건 인간의 지식을 모델에 주입하려는 시도의 연장선일 뿐이다.

인터넷 없으면 AGI는 도달 불가능한가? 그게 정말 올바른 방법인가?

인간은 결과는 모방하더라도, 방법은 행위자 스스로 찾는다. 하지만 LLM의 모델은 결과만 모방한다.

다음 토큰 예측 방식의 한계: Reversal Curse

모델이 pre-training 단계에서 A는 B다를 학습해도 B는 A라는 답은 할 수 없음.

다음토큰 예측 방식이 단방향으로 학습하기에 발생하는 구조적 한계.

A는 B이다. B는 ? 이런식으로 context로 정보를 넣어준다면 (in-context learning) 정보를 인출 할 수 있다.

모델이 Reasoning을 할 수 있게 되면서 맥락을 능동적으로 활용할 수 있게 되었다.

두가지 AI 접근방식의 충돌

서튼, 르쿤은 쥐나 개 같은 단순한 동물의 지능을 먼저 구현하고, 여기서부터 인간 수준으로 발전시켜야 한다는 관점을 가진다. 기본적인 인지기능과 학습에 대한 방법론을 구현하게 된다면, 인간수준까지의 진보는 빠를 것이라고 보는 것이다.

현재의 LLM은 반대의 방향을 가진다. 인간이 이룩한 가장 고차원적인 산물인 '언어'에서 시작해(더 정확히는 언어로 만들어진 인터넷에 존재하는 인간의 artifact들을 학습해서), 거꾸로 기본적인 인지 능력을 갖추도록 하는 방식이다.

다른 대부들의 의견

안드레 카파시

LLM이 학습하는 데이터가 사람이 만든 공간에 한정되어 있음을 인정함.

LLM이 사용하는 학습 데이터가 LLM의 한계를 규정하지 않으므로, 더 고도화된 지능으로 나아갈 수 있다.

제프리 힌튼

LLM이 언어를 이해하는 방식이 인간과 근본적으로 유사하다.

요슈아 벤지오

LLM은 상관관계는 잘 파악하지만, 인과를 파악하지 못한다. 새로운 아키텍쳐가 필요하게 될 것.

RL

RLHF

인간이 좋은 답변을 고르고

이 신호를 모방하는 Reward Model을 설계한다.

LLM이 이 Reward Model의 점수를 높이도록 Reinforcement Learning 한다.

Reward Hacking Problem : 정답에 다가가기보다 Reward model을 속이는 법을 배운다. 긴 글, 공손한 말, 아첨의 답변을 생성함.

RLVR

수학, 코딩처럼 검증 가능한, Verifiable 한 도메인에서 강화학습을 진행한다. (다른 영역에 비해 쉽다는거지 수학, 코딩의 검증이 쉽다는건 아니다. 그래도 틀렸다는건 비교적 쉽게 검증할 수 있다.)

False Positive 비율을 극도로 낮춰 Reward Hacking Problem을 방지해서 안정적인 RL을 할 수 있게 해준다.

추론과 결합된 RL

모델이 스스로 학습할 수 있게 해주고, 제약을 부여하지 않음.

단계별로 평가해 점수를 부여하게 했었음.

문제를 어떻게 풀어야하는지에 대한 제약이 걸리게 됨. 좋은 방법일 수 있지만, 탐색공간이 확 줄어버리게 됨.

rule based : 명확한 규칙이나 스크립트로 판별

Generative Model based : 검증기 자체가 또 다른 LLM. 루브릭 기법도 적용

RM-based : 인간 피드백 기반 강화학습

pre-training에 RL결합이 왜 효과적인가

어떤 문제를 푸는 방법은 암기하는 방식과 일반화 가능한 사고방식이 있다.

reward hacking이 어려운 답지 암기/잘못된 방법으로의 풀이가 억제됨.

pre-training단계에서는 일반화 가능한 방식의 학습은 굉장히 드물다.열심히 풀어놓고 답만 올린다. 인터넷에는 과정이 없는 정답만 있는 데이터가 비교도 안될정도로 많다. 이런 데이터로 학습되면 외운 것을 그냥 툭툭꺼내서 오답이 될 가능성이 높다.

RL을 사용하면 드물지만 존재하는 일반화 가능한 패턴들이 드러날 확률이 높아지게 된다.

이 일반화 가능한 방식들이 주로 알고리즘으로 얘기를 한다. 이 실행할 수 있는 기회를 모델에 제공한다.

학습과 탐색

OOD (Out-of-Domain)문제. 학습데이터에 없던 영역의 문제를 만났을 때 성능이 급격하게 저하되는 현상.

세상에 존재하는 지식이지만 아직 모델이 학습하지 못한 데이터

아직 존재하지 않지만 시간이 흐르며 생겨날 데이터.

그 동안의 '학습'은 모델을 만들기 위해서 pre-training 단계에서 사용되는 '도구'였다.

OOD를 해결하기 위해서는 '학습'이 에이전트의 하나의 기능으로 추가되어서 continual learning을 할 수 있어야한다.

현재의 패러다임(추론과 RL)이 26년 초 안에는 peak를 볼 수 있을 것으로 예측함.

local minimum 일지라도 끝은 가봐야 안다.

내 생각

LLM의 한계( 인간이 만들어둔 artifact, 특히나 언어 베이스의 인터넷 데이터. 다음 토큰 예측이라는 모호한 목적성 )에 대한 의심, 인간이 학습하는 방식과 AI가 학습하는 방식의 차이와 유사성에 대한 논의가 흥미로웠다.

도메인 지식을 모델에 주입하여 향상시키려는 시도들을 봐왔기에 bitter lesson의 씁쓸함이 더 와닿는 것 같았다.

(appbuildchat에서 scalable한 flutter project를 만들기 위해 여러가지 harness를 붙이고 강제한 시도들. 또한 최근 오디오 AI 스터디를 들으면서 봐왔던 논문들에서 소개된 휴리스틱하고 전통적인 방법론들.)

강화학습에 대해 더 깊게 알아보고 싶고, AGI에 대한 논의가 이루어지는 이 시대를 살아간다는 점이 재미있다.

'Yejun Cheon' 구독하기

사이트를 구독하면 새 포스트 등 최신 업데이트를 알림과 메일로 가장 먼저 받아보실 수 있습니다.
Slashpage에 가입하고 'Yejun Cheon'을 구독하세요!