Sign In
해봄의 아카이브

LLM 성능 최적화 기법

Haebom
최근 OpenAI의 DevDay에서 공개된 LLM 성능 최적화 기법입니다.
LLM 최적화 과정은 직선적이지 않으며, 실험적 접근과 반복적 평가를 필요로 합니다.
초기에는 Prompt Engineering을 통해 기준선을 설정하고, 필요에 따라 RAG와 fine-tuning을 적용합니다.
이러한 과정을 통해 효율적인 모델 성능을 달성하며, 문제 유형에 따라 적절한 최적화 기법을 적용합니다.

Prompt Engineering

명확한 지침을 작성하고 복잡한 작업을 간단한 하위 작업으로 분할합니다. 요즘 자꾸 길고 자세한 프롬프트에 대한 이야기를 하는 분들이 많은데... 이론상 명확하고 간결한 지시를 반복적으로 내리는게 추론 능력이 더 좋습니다.
이 과정에서는 토큰 사용을 최소화하기 위해 명확하고 간결한 지시 사항을 제공하는 것이 중요합니다.
복잡한 논리적 추론이 필요한 경우, 모델에 충분한 생각할 시간을 제공합니다.

Retrieval-Augmented Generation (RAG)

참조 텍스트나 외부 도구에 접근하여 작업을 확장합니다. GPTs가 나오면서 RAG의 개념은 더욱 중요해졌습니다. 추후 OpenAI 외에도 구글의 Makesaker 같은 친구들도 이와 같은 방식을 적극 차용할 것으로 보입니다.
RAG는 모델에 새로운 정보를 제공하여 지식을 업데이트합니다.
이 방법은 모델이 신뢰할 수 있는 콘텐츠만 사용하도록 지시하는 데에도 사용됩니다.

Fine-tuning

모델에 일관된 지시를 제공하고, 문제 해결에 필요한 특화된 지식을 강조합니다. 이건 이미 너무 많이 알려져서 설명이 필요 있을지 모르겠습니다.
Fine-tuning은 기존 모델을 도메인 특화된 데이터셋으로 추가 학습시키는 기술입니다.
이를 통해 모델의 성능과 효율성을 높일 수 있으며, 데이터 양 제한이 적어 성능을 극대화할 수 있습니다.

모델 평가?

최근 작은 모델 혹은 Forked된 모델들 중 평가데이터셋을 별도 학습시켜 점수만 끌어올리는 경우가 왕왕 보입니다. 윤리적으로도 잘못 되었지만 이는 다른 모델들의 평가 방식에도 악영향을 끼칠 수 있습니다.
모델의 성능을 평가할 때는 정확도, 고정성, 답변 적합성과 같은 지표를 고려합니다.
RAG 모델 사용 시, 콘텐츠의 적합성도 중요하게 고려해야 합니다.
OpenAI의 GPT-4의 경우, 98%의 정확도를 달성한 사례에서는 re-ranking, 규칙 기반 방식, 분류 등 다양한 시도를 통해 모델을 개선했습니다. 이러한 사례는 fine-tuning 없이도 적절한 문맥과 선택을 통해 문제를 해결할 수 있음을 보여줍니다.
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!
Subscribe