what I read & watch

시청한 컨텐츠, 읽었던 글들을 남깁니다.
All
AI
노정석 팟캐스트 : Bitter Lesson
Bitter Lesson이란 AI 연구 초기에는 체스 전략이나 문법 규칙처럼 도메인 지식, 더 구체적으로는 인간의 지식을 AI에 주입하는 방식으로 학습시키고자 했다. 이러한 방법론들은 단기적으론 성과가 있었다. baseline보다 더 좋은 성능을 가졌지만, 결국 승리하는건 방대한 computation을 기반으로 학습과 탐색의 일반적 방법론이었다. bitter lesson 번역 Andrej Karpathy가 테슬라의 FSD 팀 갈아엎은 사례. 온갖 휴리스틱과 rule base들의 집약체와 여러 비전 모델들을 Singular Learning Problem으로 바꾸면서 연산자원을 투입했고, 문제가 풀려버림. LLM은 mimicry Engines일 뿐이야 LLM 진영은 이 Bitter lesson의 computation의 증가가 올바른 방향이라는 서튼의 말을 보고 아군이라 여겼지만, 서튼은 다른 생각을 가지고 있었고 LLM이 막다른 길에 왔다고 이야기한다. 목적을 가지고 세상과 상호작용. 목적에 부합하면 올바른 예측, 아니면 올바르지 않은 예측. 그런 측면에서 LLM의 다음 토큰 예측 문제는 어떤 액션이 올바른지 아닌지가 아니고 모델이 목적을 가진 것도 아님. pre-training 은 인터넷 자료를 사용하는데, 이건 인간의 지식을 모델에 주입하려는 시도의 연장선일 뿐이다. 인터넷 없으면 AGI는 도달 불가능한가? 그게 정말 올바른 방법인가? 인간은 결과는 모방하더라도, 방법은 행위자 스스로 찾는다. 하지만 LLM의 모델은 결과만 모방한다. 다음 토큰 예측 방식의 한계: Reversal Curse 모델이 pre-training 단계에서 A는 B다를 학습해도 B는 A라는 답은 할 수 없음. 다음토큰 예측 방식이 단방향으로 학습하기에 발생하는 구조적 한계. A는 B이다. B는 ? 이런식으로 context로 정보를 넣어준다면 (in-context learning) 정보를 인출 할 수 있다. 모델이 Reasoning을 할 수 있게 되면서 맥락을 능동적으로 활용할 수 있게 되었다. 두가지 AI 접근방식의 충돌 서튼, 르쿤은 쥐나 개 같은 단순한 동물의 지능을 먼저 구현하고, 여기서부터 인간 수준으로 발전시켜야 한다는 관점을 가진다. 기본적인 인지기능과 학습에 대한 방법론을 구현하게 된다면, 인간수준까지의 진보는 빠를 것이라고 보는 것이다.
  1. AI
  • 예준천
노정석 팟캐스트 : 토큰 5억원어치를 어떻게 사용했는가
토큰 5억원어치 단순히 많이 사용한건 의미있지 않다. 어떤 모델을 써서, 어떤 output을 만들어냈고, 어떻게 검증할 것인지, 그게 유의미한 가치를 창출했는지가 중요하다. 생각들 모델에게 불가능은 없다라고 가정하자. 각 모델별로 특장점이 있고 편향이 존재한다. 따라서 메인모델만 사용하는 것이 아니라 task의 목적별로 delegate하는 것도 필요하고, 상호 토의도 유의미하다. 컨텍스트에 맡기기보다는 하고있는 작업을 markdown으로 지속적으로 회람시키는 것이 좋다. AI시대의 조직 콘웨이의 법칙. 소프트웨어의 구조는 그걸 만드는 조직의 구조를 닮아간다. 투영된다. AI가 만든 코드는 bus factor(핵심 지식을 가진 사람이 몇 명 빠지면 프로젝트가 멈춰버리는가에 관한 지표) 가 0이다. 이게 나쁜게 아니라 오히려 무한대로 고려할 수 있다. 모든게 공개되고, 모든 문맥이 공유된다. Ultrathink 이제 코드를 작성하는 행위는 쉽다. spec을 구체화하는게 중요하다. 앞단계를 구체화시켜,코딩 CLI의 부담을 코드 작성 자체에 집중하도록 하자. 작은 cycle을 만들어서 task를 하나하나 수행해나가며 Iteration을 돌린다. 에반게리온 MAGI 시스템. 3개의 컴퓨터. 상호검증시스템. 이게 가능해진 시대아닐까. surgical 프롬프팅 : 작은 spec만 수정하면서 출력결과를 원하는 방향으로 정밀하게 조정하는 기법. 도메인 전문가의 best practice를 distillation 하는 방법도 연구되어야한다. 언어 자체의 피드백
  • 예준천
노정석 팟캐스트 : The Fog of Progress
The Fog of Progress 프런티어에 없는 사람들이 프런티어에 대해 이야기한다. Q* 알고리즘. 서치하지 않고 RL해야한다는 이야기. 프런티어 밖에서는 Q알고리즘 A* 알고리즘같은 헛다리를 짚었다. 그렇다고 의미없지는 않다. 추론과 에이전트의 시대 멀티모달같은 문제를 내려놓고라도. 추론과 에이전트에 모든 자원을 쏟는다. 멀티모달이 풀려야 세상을 이해할 수 있다고 이야기하는 통념과는 좀 다르다. 텍스트의 한계? 텍스트, 언어가 가지는 의의는 남다르다. 텍스트는 이미지와 동일한 데이터가 아니다. 텍스트는 강력하고 지능에 근접하다. 텍스트에 대한 pre-training은 많은 task에 대한 학습을 하는 것. 텍스트는 이해가 발생한다. 이전의 맥락을 주었을 때, 부합하는 나머지 부분을 생성할 수 있다. 이게 이해라고 볼 수 있음. 텍스트는 사람이 만든 것. 인간의 관점과 성향을 배우는 것. 이미지는 자연에 그저 존재함. 인간은 이미지를 이해할 때도 기호적인 방식으로 이해함. Reasoning, inference, chain of thought inferecne : 디코딩, 샘플링. 모델이 텍스트를 생성하는 과정 Reasoning: 최종적인 답안을 생성하기 전에 사고와 유사한 텍스트 생성을 통해 답안을 준비하는 과정을 거치는 것. 요즘 Reasoning 이 CoT과 다른점 : RL을 사용함. 후반전 : 방법의 시대 -> 평가의 시대 평가할 수 있는 문제는 모두 풀 수 있다. 문제를 찾아야한다 -> 현실의 가치에 부합하는 평가를 찾아야한다 -> 평가 할 수 있다면 모든 걸 풀수 있다. ex. openai 할루시네이션 논문. post-training 단계에서의 발생 원인. 평가가 할루시네이션에 인센티브를 주기에 발생한다. verifiable < evaluation non-verifiable : 아레나에서 모델 결과 투표 같은 거. verifiable 하지는 않지만, evaluation 가능하다.
  • 예준천