Share
Sign In
Lighthouse LLM
강화학습과 LLM - 1.1 강화학습이란?
L
Lighthouse
👍
3
👏
1
1.1 강화학습이란?
적절한 보상체계를 활용해 에이전트가 올바른 행동을 할 수 있도록 에이전트 행동을 제어하는 정책을 찾아내는 최적화 기법
목표는 보상을 최대화 하는 것으로 표현 됨.
구성요소로는 에이전트, 환경, 행동, 보상, 상태, 정책이 있음

머신 러닝 - 컴퓨터가 데이터를 통해 학습
지도 학습 – 레이블이 지정된 데이터를 통해 함수를 학습하는 것
비지도 학습 – 레이블이 없는 데이터로부터 패턴이나 구조를 찾아내는 과정
강화 학습 – 에이전트가 환경과 상호작용하며 시행착오를 통해 학습
최근에는 대부분 딥러닝으로 구현 되는 추세
상호작용 → 순차적 의사 결정
경우의 수가 너무 많아지는 문제점.
마르코브 속성(MP)
상호작용 문제를 단순화하기 위해 현재 상태 는 예측에 필요한 모든 정보를 가지고 있으므로 과거 정보를 기억하고 있을 필요 없다고 가정하는 속성
ex) 100 년 전의 날씨는 내일 날씨 예측에 필요하지 않음.
마르코프 결정 과정(MDP)
마르코프 속성 가정 하에, 각 의사 결정 단계에서 행동과 상태에 따른 보상을 모델링 한것
강화학습은 MDP 하에서 이루어짐.
S : 상태(State)
A : 행동(Action)
P : 전이 확률
R : 보상
γ : 감가율
Kp
Subscribe to 'kpmg-lighthouse'
Welcome to 'kpmg-lighthouse'!
By subscribing to my site, you'll be the first to receive notifications and emails about the latest updates, including new posts.
Join SlashPage and subscribe to 'kpmg-lighthouse'!
Subscribe
👍
3
👏
1
Lighthouse
대규모 언어 모델(LLM)이란?
대규모 언어 모델(LLM)은 방대한 양의 텍스트 데이터를 학습하여 텍스트를 생성하고, 언어를 번역하고, 다양한 종류의 창의적인 콘텐츠를 작성하는 등 인간과 같은 방식으로 언어를 처리할 수 있는 기계 학습 모델입니다. LLM은 다음과 같은 특징을 가지고 있습니다. 대규모 데이터 학습: LLM은 수백만에서 수십억 개의 단어로 구성된 데이터 세트에서 학습합니다. 이러한 대규모 데이터 세트는 LLM이 인간 언어의 복잡성을 이해하고 학습하는 데 도움이 됩니다. 텍스트 생성: LLM은 텍스트를 생성할 수 있습니다. 예를 들어, LLM은 시, 코드, 대본, 음악 작품, 이메일,편지 등과 같은 다양한 종류의 창의적인 텍스트 형식을 생성할 수 있습니다. 언어 번역: LLM은 언어를 번역할 수 있습니다. 예를 들어, LLM은 영어에서 한국어로, 한국어에서 영어로 등 다양한 언어 간의 번역을 수행할 수 있습니다. 질문 응답: LLM은 질문에 답변할 수 있습니다. 예를 들어, LLM은 "파리의 수도는 어디입니까?"와 같은 질문에 답변할 수 있습니다. LLM은 다양한 분야에서 활용되고 있습니다. 다음은 LLM의 대표적인 활용 사례입니다. 자연어 처리: LLM은 자연어 처리(NLP) 분야에서 사용됩니다. NLP는 컴퓨터가 인간 언어를 이해하고 처리할 수 있도록 하는 분야입니다. LLM은 NLP의 다양한 작업에 사용될 수 있습니다. 예를 들어, LLM은 텍스트를 분류하고, 텍스트에서 정보를 추출하고, 텍스트를 요약하는 데 사용될 수 있습니다. 챗봇: LLM은 챗봇에 사용됩니다. 챗봇은 사람과 대화할 수 있는 컴퓨터 프로그램입니다. LLM은 챗봇이 더 자연스럽고 유익한 대화를 할 수 있도록 합니다. 창의적인 콘텐츠 생성: LLM은 창의적인 콘텐츠를 생성하는 데 사용됩니다. 예를 들어, LLM은 시, 코드, 대본, 음악 작품, 이메일, 편지 등과 같은 다양한 종류의 창의적인 텍스트 형식을 생성하는 데 사용될 수 있습니다. RAG 방식 LLM은 다음과 같은 방식으로 작동합니다. LLM은 입력 텍스트를 단어와 기호로 분해합니다. LLM은 분해된 단어와 기호를 사용하여 텍스트의 의미를 이해합니다. LLM은 텍스트의 의미를 바탕으로 출력 텍스트를 생성합니다. LLM의 정확성과 성능을 향상시키기 위해 다양한 방법이 연구되고 있습니다. 그 중 하나는 RAG 방식입니다. RAG 방식은 LLM이 텍스트를 이해하는 방식을 개선하는 방식입니다. RAG 방식은 텍스트를 다음과 같이 세 가지 구성 요소로 분해합니다. 관계(Relations): 텍스트의 주제와 주제 간의 관계를 나타냅니다. 예를 들어, "김철수는 서울에 사는 학생입니다."라는 문장에서 "서울에 사는"은 "김철수"와 "학생"의 관계를 나타냅니다. 주제(Argument): 텍스트의 주제를 나타냅니다. 예를 들어, "김철수는 서울에 사는 학생입니다."라는 문장에서 "김철수"와 "학생"은 모두 주제입니다.
👍
1
Lighthouse
강화학습, 초보자도 쉽게 이해하기
안녕하세요, 여러분! 오늘은 강화학습에 대해 간단히 소개해드리려고 합니다. 강화학습은 인공지능 분야의 한 분야로, 에이전트가 환경과 상호 작용하면서 보상을 최대화하는 방법을 학습하는 방법입니다. 강화학습은 게임, 로봇 공학, 자율주행 등 다양한 분야에서 활용되고 있습니다. 예를 들어, 게임에서 강화학습을 사용하면 에이전트가 스스로 게임을 배우고 최상의 전략을 개발할 수 있습니다. 로봇 공학에서 강화학습을 사용하면 로봇이 스스로 환경을 탐색하고 안전하게 이동할 수 있습니다. 자율주행에서 강화학습을 사용하면 자율주행 자동차가 스스로 교통 상황을 판단하고 안전하게 주행할 수 있습니다. 강화학습은 다음과 같은 두 가지 기본 요소로 구성됩니다. 에이전트: 환경과 상호 작용하는 주체 보상: 에이전트의 행동을 평가하는 지표 에이전트는 환경에서 정보를 수집하고, 이를 바탕으로 행동을 결정합니다. 에이전트의 행동에 따라 보상이 주어지며, 에이전트는 보상을 통해 자신의 행동을 개선합니다. 강화학습은 복잡한 알고리즘을 사용하는 경우가 많아 초보자에게는 다소 어려울 수 있습니다. 하지만 기본 개념을 이해하면 어렵지 않게 접근할 수 있습니다. 강화학습의 기본 개념을 다음과 같이 정리할 수 있습니다. 에이전트는 환경과 상호 작용하면서 보상을 최대화하는 방법을 학습합니다. 보상은 에이전트의 행동을 평가하는 지표입니다. 에이전트는 보상을 통해 자신의 행동을 개선합니다. 강화학습에 대해 더 자세히 알고 싶으신 분들은 다음과 같은 자료를 참고하시기 바랍니다.
👍❤️
2
Lighthouse
강화학습과 LLM - 1.2 가치 기대 함수
벨만 기대 방정식 마르코프 결정 과정 문제를 풀기 위해 상태와 행동의 판단 기준을 만든 식 ex) 시험 하루 전에 도서관에 있는 상태 ex) 시험 하루 전에 도서관에서 잠을 자는 행동의 상태 벨만 최적 방정식 가치 기대 함수 전이 확률과 보상 값이 알려져 있는 경우 아래 방법 수렴 보장. 가치 이터레이션 Max 값 이용 (벨만 최적 방정식) 목표 지점의 보상이 0이고 매 time-step에 마다 -1 감가율 = 1 출처: https://sumniya.tistory.com/10 가치 이터레이션 V_1 1행 2열 가치 계산 : -1 + max([0,0,0,0]) = -1 즉각적인 보상 -1 에 max(v) 가 모두 0 이었으므로 모두 -1 이 됨. V_2 1행 2열 가치 계산 : -1 + max([0,-1,-1,-1]) = -1 3행 3열 가치 계산 : -1 + max([-1,-1,-1,-1]) = -2 결과
👍❤️
2