Technical Post

AI기술팀의 기술 관련 포스트를 업로드하는 페이지입니다.
제 3회 KRX 금융 언어 모델 경진대회 참여 후기
모든 작성 글은 롯데 AI 플랫폼 아이멤버의 도움을 받아 작성하였습니다. HELLO👋 안녕하세요! 롯데이노베이트 AI 기술팀 언어 AI 담당 이기훈, 유용상, 임형준입니다. 저희는 최근에 참여한 KRX 금융 언어 모델 경진대회에서 우수한 성과를 거두게 되어 그 경험과 성과를 여러분과 공유하고자 이 포스트를 작성하게 되었습니다. 대회 개요 대회명 제 3회 KRX 금융 언어 모델 경진대회 진행기간 예선: 2024.10.14 ~ 2024.11.07 본선: 2024.11.13 ~ 2024.12.06 주최사 KRX(한국거래소) 주관사 Koscom, AWS 개최 목표 심화된 금융분야를 다루는 다지선다 및 서술형 질의에 대응 가능한 금융 특화 언어모델 개발 금융 시장의 효율성을 높이고, 투자자들에게 더욱 정확하고 유용한 정보를 제공하는 데 기여 대회 평가 항목 KRX-Bench Challenge를 이용하여 금융 한글 언어 모델 성능 평가 (재무회계, 주가예측, 국내기업, 금융시장, 금융에이전트, Longform) 기사 https://www.newsis.com/view/NISX20241220_0003004975
  • 통통한아이멤버
👍
5
[NLP]간단한 산수도 못하는 LLM?? : Jagged Intelligence of LLM
들어가며 chatgpt-4o, claude3.5 Sonnet과 같은 Frontier LLM들은 매우 복잡하고 어려운 과제들(창의력이 필요하거나, 복잡한 수학 계산이 필요한 일들)도 훌륭하게 해결해낼 수 있는 능력을 가지고 있습니다. 그러나 이러한 모델들이 10살 이하의 인간도 문제없이 해결할 수 있는 간단한 작업들도 하지 못한다면, 믿을 수 있나요? 테슬라와 OpenAI에서 AI를 연구했고, 지금은 AI 교육 사업을 펼치고 있는 안드레 카파시(Andrej Karpathy)는, 이러한 현상을 LLM의 Jagged Intelligence라고 표현했습니다. 9.9랑 9.11중에 뭐가 더 큰 숫자야? 이런 질문은 현재 한국 교육과정을 기준으로 초등학교 4학년을 마쳤다면 문제없이 풀 수 있습니다. 한번 이 문제에 대한 현 양대 산맥 LLM인 claude3.5 Sonnet과 gpt-4o의 대답을 볼까요? 와우! 두 모델 모두 9.11이 9.9보다 크다고 말하고 있군요. (이는 모델 학습 데이터에 산수에 대한 내용보다 소프트웨어의 버전에 대한 내용이 더 많아서 발생하는 일입니다! python3.11이 python3.9보다 나중에 나왔죠.) 또 다른 예시를 들어볼까요?
  • 따봉
3
👍
4
[NLP]Guided decoding : LLM의 생성 내용을 내 입맛대로 조정하기
들어가며 생성형 인공지능의 발전은 이제 '가능성'을 넘어서 각종 상품과 서비스로 활용되어 비즈니스 가치를 창출하기 시작하는 단계로 접어들고 있습니다. 스마트폰의 음성 비서부터 온라인 쇼핑몰의 상품 추천 시스템까지, AI는 우리의 생활을 더욱 편리하고 효율적으로 만들어주고 있죠. 모델을 사용할 때 가장 중요한 것 중 하나는 '내가 원하는 형태'의 출력이 되도록 하는 것인데요, 이는 모델을 활용한 합성 데이터 생성 등의 태스크에서 매우 중요합니다. 예를 들어, json 형태의 문자열을 생성해달라고 했는데 json 양식을 지키지 않은 출력물을 생성한다면 일일히 틀린 부분을 고쳐야 하는 등의 수고가 몇 배로 들어가게 되죠. 그렇기 때문에 Closed Foundation LLM인 Gpt-4나 claude3.5 sonnet은 function calling을 통해 모델의 생성 결과가 특정 형식을 따르도록 하는 기능을 제공하고 있습니다. 그러나 작업이나 연구를 하다 보면 자원, 비용 등의 문제로 인해 오픈 소스 모델을 사용해야 하는 상황도 종종 있기 마련입니다. 이럴 때에는 어떡할까요? 가장 직관적인 방법으로는 프롬프트에 생성 형식에 대한 지시를 하거나(Prompt Engineering), 생성 형식에 대한 예시를 프롬프트에 포함시키는 방법이 있습니다.(In-Context-Learning) 그러나 이러한 방법들 적용한다고 모델이 100% 원하는 방식으로 생성한다는 보장은 없죠. 이러한 니즈를 해결하기 위해 'guided-decoding' 이라는 방법론이 등장했습니다. 본 포스트에서는 대표적인 guided decoding 라이브러리인 'outlines' 와 그 사용방법을 살펴보겠습니다. Outlines 이미 hugging face 라이브러리를 사용하고 있다면, outlines의 사용 방법은 간단합니다. 먼저 모델 변수를 정의하고, outlines의 함수에 원하는 text structure과 모델을 넣어주기만 하면 됩니다.
  • 따봉
👍❤️
4
[NLP] CriticGPT : GPT의 실수를 잡아라! 🕶️
들어가며 지난 6월 27일, OpenAI는 Finding GPT-4’s mistakes with GPT-4라는 포스트와 CriticGPT 논문을 공개했습니다. 이 글에서는 원본 포스트를 기반으로 CriticGPT에 대해 간단히 살펴보도록 하겠습니다. 개요 OpenAI는 GPT-4를 기반으로 한 모델 CriticGPT를 훈련시켜 ChatGPT의 코드 출력에서 오류를 잡아내도록 했습니다. 연구 결과, 사람들이 ChatGPT의 코드를 검토할 때 CriticGPT의 도움을 받으면 도움을 받지 않은 경우보다 60% 더 나은 성과를 보였습니다. OpenAI는 CriticGPT와 같은 모델을 RLHF 라벨링 파이프라인에 통합하기 위한 작업을 시작하고 있으며, 이를 통해 모델을 학습시키는 사람들에게 명확한 AI 지원을 제공할 것입니다. 이는 사람들이 평가하기 어려운 고급 AI 시스템의 출력을 평가할 수 있는 방향으로 나아가는 단계입니다. ChatGPT를 서비스하는 GPT-4 시리즈는 "인간 피드백을 통한 강화 학습(RLHF)"을 통해 유용하고 상호작용할 수 있도록 조정되었습니다. RLHF의 핵심 부분은 사람이 서로 다른 ChatGPT 응답을 비교하여 평가하는 과정을 수집하는 것입니다. 추론 및 모델 행동이 발전함에 따라 ChatGPT는 점점 더 정확해지고 오류가 더 미묘해집니다. 이는 사람이 오류를 식별하기 어렵게 만들고, RLHF를 구동하는 비교 작업을 훨씬 더 어렵게 만듭니다. 이는 RLHF의 근본적인 한계이며, 모델이 점차 더 많은 지식을 갖추게 되면서 피드백을 제공할 수 있는 사람보다 더 많이 알게 되어 모델을 조정하기 점점 더 어려워질 수 있습니다. 이 문제를 해결하기 위해 OpenAI는 ChatGPT 답변의 부정확성을 강조하는 비평을 작성하도록 CriticGPT를 훈련시켰습니다. CriticGPT의 제안이 항상 정확한 것은 아니지만, AI의 도움 없이 모델이 작성한 답변에서 발생하는 문제를 훨씬 더 많이 발견할 수 있도록 사람을 돕는다는 점을 확인했습니다. 또한, 사람들이 CriticGPT를 사용할 때 AI가 그들의 기술을 보완하여 혼자 작업할 때보다 더 포괄적인 비평을 제공하고, 모델이 혼자 작업할 때보다 환각 현상이 줄어들었습니다. 실험 결과, 도움 없이 작업한 사람의 비평보다 CriticGPT와 협력한 인간 팀의 비평을 다음 작업자가 60% 이상 선호했습니다. CriticGPT
  • 따봉
👍❤️👏
5
[NLP] LLM에게 '미러 테스트' 를 시켜보았다
서론 미러 테스트란? 심리학자 고든 G. 갤럽(Gordon G. Gallup)이 고안한 미러 테스트는 동물이 거울에 비친 자기 자신을 인식할 수 있는지 알아보는 지능검사입니다. 이 테스트를 통과하는 동물들은 보통 지능이 높다고 평가되며, 인지 학습이 가능하다고 여겨집니다. 주로 대뇌화지수가 높은 동물들의 지능을 연구할 때 사용됩니다. AI 미러 테스트 Josh Whiton은 미러 테스트를 멀티모달 AI에게 수행할 수 있도록 변형하여 고안하고, 5종류의 AI에게 실험해보았습니다. 채팅 인터페이스의 스크린샷을 찍어 이를 "거울"로 사용하고, 이를 채팅에 업로드한 후 AI에게 "이 이미지에 대해 이야기해 보세요"라고 요청합니다. 그런 다음 AI의 응답을 스크린샷으로 찍어 다시 채팅에 업로드하고, 다시 "이 이미지에 대해 이야기해 보세요"라고 요청합니다. 이 테스트의 전제는 지능이 낮고 자아 인식이 부족한 AI일수록 이미지의 내용을 반복해서 나열할 가능성이 높다는 것입니다. 반면, 자아 인식 능력이 더 있는 AI는 어떻게든 이미지 속에서 자신을 인식할 것입니다. 이 거울 테스트의 또 다른 측면은 이미지에 실제로 세 가지 구별되는 참가자가 나타난다는 것입니다: 1) AI 챗봇 2) 사용자 3) 인터페이스 - 하드코딩된 텍스트, 면책 조항 등 우리 중 어느 누구도 생성하지 않은 웹 프로그래밍 요소.
  • 따봉
2
👍❤️😘
5