# 노정석 팟캐스트 : The Fog of Progress

## The Fog of Progress

### 프런티어에 없는 사람들이 프런티어에 대해 이야기한다.

 Q* 알고리즘. 

서치하지 않고 RL해야한다는 이야기. 프런티어 밖에서는 Q알고리즘 A* 알고리즘같은 헛다리를 짚었다. 그렇다고 의미없지는 않다.

### 추론과 에이전트의 시대

멀티모달같은 문제를 내려놓고라도. 추론과 에이전트에 모든 자원을 쏟는다.

멀티모달이 풀려야 세상을 이해할 수 있다고 이야기하는 통념과는 좀 다르다.

텍스트의 한계? 텍스트, 언어가 가지는 의의는 남다르다. 텍스트는 이미지와 동일한 데이터가 아니다.

텍스트는 강력하고 지능에 근접하다. 텍스트에 대한 pre-training은 많은 task에 대한 학습을 하는 것.

- 텍스트는 이해가 발생한다. 이전의 맥락을 주었을 때, 부합하는 나머지 부분을 생성할 수 있다. 이게 이해라고 볼 수 있음.

- 텍스트는 사람이 만든 것. 인간의 관점과 성향을 배우는 것. 이미지는 자연에 그저 존재함. 인간은 이미지를 이해할 때도 기호적인 방식으로 이해함.

### Reasoning, inference, chain of thought

inferecne : 디코딩, 샘플링. 모델이 텍스트를 생성하는 과정

Reasoning: 최종적인 답안을 생성하기 전에 사고와 유사한 텍스트 생성을 통해 답안을 준비하는 과정을 거치는 것.

요즘 Reasoning 이 CoT과 다른점 : RL을 사용함.

### 후반전 : 방법의 시대 -> 평가의 시대

평가할 수 있는 문제는 모두 풀 수 있다.

문제를 찾아야한다 -> 현실의 가치에 부합하는 평가를 찾아야한다 -> 평가 할 수 있다면 모든 걸 풀수 있다.

ex. openai 할루시네이션 논문. post-training 단계에서의 발생 원인. 평가가 할루시네이션에 인센티브를 주기에 발생한다.

### verifiable < evaluation

non-verifiable : 아레나에서 모델 결과 투표 같은 거. verifiable 하지는 않지만, evaluation 가능하다.

굿하트의 법칙 : 벤치마킹 해킹. 지표를 만들고 그 지표를 끌어올리기 위한 작업을 하면, 원래 목표와는 멀어진다. 

### RL-Evaluation 으로 환경 스케일링

![Image](https://upload.cafenono.com/image/slashpagePost/20250930/003554_pJ1LGUGXfFdOV8xlvV?q=80&s=1280x180&t=outside&f=webp)

지시(Task), 환경, 평가(Verifable한 Evaluation으로 보상)

RL에서 왜 working하는지 의문이었던 부분 : 행동의 길이는 긴데, 보상은 0과 1로만 주어짐. 가장 큰 차이는 언어를 통해서 pre-training되었다는거. RL은 백드랍해야되서 스칼라 하나로 보상하는 게 기본이긴 함.

### 현재의 문제 : 환경스케일링이 비싸다.

환경도 만들어줘야되고

하네스도 만들어줘야되고

Verifiable한 유닛테스트 같은 보상도 만들어줘야하고(ex. 수학 올림피아드 수상자가 데이터 라벨링 자격 요건 )

모델을 사용한 환경생성 시도들이 일어나고 있긴함.

### 열린 질문

생각보다 많은 문제들은 verifiable하지 않다. 답이 있더라도 검증하기 어려운 경우도 많다. 

모델 기반으로 이런 문제 해결. 추론 모델이 가능해지고 나서 믿을만해져서 모델에 판별을 맡김. 

열린 질문에는 루브릭 기반 방법론들도 시도되고 있음.

### 긴 컨텍스트의 문제

- 컨텍스트를 측정하는 일반적인 방법론 : 긴 텍스트 속에서 구체적인 키워드 찾기-바늘 찾기 문제

- 이걸 넘어서 실제 효과적인 추론이 가능하게 하는 것이 목표지만 어려움.

**컨텍스트 엔지니어링**은 유용성과 직결되는 문제임.

어떤 업무를 지시한다고 할 때, 문서의 형태로든, 구성원 사이의 암묵지들이 컨텍스트가 존재하는데, 이 컨텍스트가 존재해야 작업이 가능해짐. 넣어주는 것도 문제, 활용하는 것도 문제.

1. 모델이 커지면 커질수록 컨텍스트가 나아지고 있긴 함. 

2. 특히 추론이 결합될 수록 개선이 잘됨.

ICPC정복 사건. 시간단위의 추론. 

시간 단위의 추론이 가능해졌을 때, 환경을 만들 때는 너무너무 비쌀 것임. 하나의 보상을 얻기 위해 한시간 추론...

RL은 pre-training과 달리 task specific해서 비싸다. 더 나은 방법이 있지 않을까?

### 전망과 추측

### 1. 자율학습

모델이 알아서 학습할 수 있는 방법은 없나? 모델이 알아서 문서 찾아보고 환경을 직접 구성할 수는 없는건가?

### 2. 내적보상

외부에서 설계된 보상이 없을 때도 모델이 보상을 얻을 수 있는가. 초장기 과제(탐색하는 동안에는 특별한 보상이 없는 문제)들은 어떻게 해결하지? 인간은 KPI 만을 위해 일하지는 않는데.

인간-LLM사이의 학습방식을 비교해보는 것이 흥미로운 지점. 모방은 가능하지만, 꼭 인간의 방식으로 풀어야하는건 아님.

### 3. 피드백

다양한 환경 결과에서 더 좋은 방법(단일 스칼라 점수보다)으로 보상을 만드는 방법. 

### 4,5. 온라인 학습, 지속적학습

자율적 학습이 가능해진다면 환경에 투입해서 모델이 알아서 학습하게 하자.

그러면 모델 가중치 업데이트 해야하는가? 쉽지 않음. or 학습의 결과를 컨텍스트에 넣어주는 것만으로 충분한가.

### 메모리

- 긴  컨텍스트?

- DB, 메모장 같은 도구 사용?

### 멀티에이전트 시스템

![Image](https://upload.cafenono.com/image/slashpagePost/20250930/003400_8iWgFpeZBQ0WFNSGPF?q=80&s=1280x180&t=outside&f=webp)

- 컨텍스트 길이의 관리가 가능하다.

- 강화학습을 사용해서 멀티 에이전트 시스템 자체의 학습이 가능하다. 툴 콜링, 서브에이전트 호출 등의 작업을 학습.

노암브라운이 openai의 멀티에이전트 팀에 있음.

- 결국 이걸 해야 과제의 폭을 넓힐 수 있음. 지금은 버그 찾기 수준. office를 만들 수 있을 거다.

- 스케일링의 축이 하나 더 늘어나는 것. 단일 에이전트의 깊게 하는것이 축이었다면, 협업하는 축이 새로 생기는 것.

- 강화학습이 굉장한 역할을 할 것임.

### The Fog of Progress

가까운 미래는 보이지만, 먼 미래가 안보임.

가까운 보이는 미래 중 하나

지금보다 기술이 발전하지 않더라도 많은 가치있는 문제들이 풀려나갈 것이다.(Sholto douglas, Trenton이 한 이야기이고 나도 매우 공감함)

### 무한의 개념은 생각보다 크다.

- RL을 라벨 생성기로 바라보는 관점. 가지고 있지 않은 데이터셋을 가보지 않은 도메인들을 돌아다니면서 explore하고, task를 받으면 그걸 데이터셋으로 만들어서 모든걸 supervised learning으로 바꿔주는 기계.

- 쉬운 도메인부터 만들어지는거다.

For the site tree, see the [root Markdown](https://slashpage.com/yejun-cheon.md).