Lighthouse AI

AI 기술 이야기
DocVLM: Make Your VLM an Efficient Reader
DocVLM: Make Your VLM an Efficient Reader AWS AI Labs Keywords Compact Learned Queries Document Understanding VLM model-agnostic Abstract We introduce DocVLM, a method that integrates an OCR-based modality into VLMs to enhance document processing while preserving original weights. Our approach employs an OCR encoder to capture textual content and layout, compressing these into a compact set of learned queries incorporated into the VLM. Model agnostic 하게 DocVLM 적용 가능 (InternVL2, Qwen2-VL, LLaVA-OneVision) Contribution 모델 독립적 OCR 정보 통합 방법 제안 OCR 정보를 64개 쿼리로 압축해 연산 부담 감소 다양한 VLM에서 성능 향상 확인 (특히 448×448 입력 환경) 멀티페이지 문서에서도 강력한 성능 (DUDE 제로샷, MP-DocVQA SOTA 달성) 1. Introduction tension between resolution requirements and computational efficiency OCR 텍스트를 직접 언어 모델 프롬프트에 넣는 방식은 시각적 맥락과 레이아웃 정보를 놓치며, 긴 시퀀스로 인해 지연과 비용 증가 초래 최근 VLM들은 이미지 토큰 수 줄이기 위한 기법을 도입했지만, 성능 저하 문제 발생 2. Related Work
  • 최윤진
DocSynth: A Layout Guided Approach for Controllable Document Image Synthesis
링크 : 코드 : 저자 : Sanket Biswas, Pau Riba, Josep Lladós, Umapada Pal ICDAR 2021 인용 : 27회 Abstract synthesis of document images containing multiple and complex object layouts is a challenging task DocSynth automatically synthesize document images based on a given layout 사용자 제공 레이아웃(객체 카테고리 포함 바운딩 박스)을 기반으로 문서 이미지 생성. 정의된 레이아웃과 일관된 현실적인 문서 이미지 생성 가능 Keywords: Document Synthesis · Generative Adversarial Networks · Layout Generation. 1 Introduction 학습을 위한 대량의 주석 데이터 필요하지만, 현실적으로 데이터 확보가 어려움 → 합성데이터는 그 대안임. Main Contribution
  • 최윤진
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception
Link : DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception Zhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He cited : 4 Code : Abstract DLA 태스크 → 트레이드 오프 존재 : speed - accuracy 멀티모달 : text feature + visual feature → high accuracy but high expense 유니모달 : visual feature → fast spped but row accurarcy DocLayout-YOLO document specific optimization : Pre-Training, Model Design Dataset Generation → Pretraining Mesh-candidate BestFit algorithm 제안 framing document synthesis as two-dimensional bin packing problem 위 방식으로 DocSynth-300K dataset 생성 후 → training Model Design → Global-to-Local Controllable Receptive Module(G2L_CPM) 도입 better handling multi-scale variations of document elements Introduce DocStructBench Benchmark DocLayout YOLO Detection 결과 DocSynth-300K 데이터셋 1 Introducing
  • 최윤진
Docling Technical Report
논문명 : Docling Technical Report 링크 : 출간일 : 2024.08 Affilation : arXiv 저자 Christoph Auer, Maksym Lysak, Ahmed Nassar, Michele Dolfi, Nikolaos Livathinos, Panos Vagenas, Cesar Berrospi Ramis, Matteo Omenetti, Fabian Lindlbauer, Kasper Dinkla, Lokesh Mishra, Yusik Kim, Shubham Gupta, Rafael Teixeira de Lima, Valery Weber, Lucas Morin, Ingmar Meijer, Viktor Kuropiatnyk, Peter W. J. Staar 소속 : AI4K Group : IBM Research 인용 수 : - 코드 : MIT License Abstract Docling은 PDF 문서 변환을 위한 MIT 오픈소스 사용이 간편하며 self-contained 형태로 설계 DocLayNet과 TableFormer 를 사용하여 DLA, TSR 수행 commodity hardware에서 효율적으로 동작. 적은 자원 필요
  • 최윤진
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
논문명 : General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 링크 : 출간일 : 출간 학회 : arxiv 저자 : Haoran Wei,∗, Chenglong Liu,∗, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu , Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang 소속 : StepFun, Megvii Technology 인용 수 : 4 코드 : Abstract Traditional OCR System (=OCR 1.0) 은 사람들의 요구를 맞춰주기 어려움. OCR 2.0 을 위한 General OCR Theory(GOT) 제안 platin text, math/molecular formulas, tables, charts, sheet music, geometric shape 을 모두 처리 GOT 580 M Parameters high compression encoder + long context decoder 로 구성 whole image 지원 output : plain text, markdown 과 같은 formatted result 도 낼 수 있음. Introduction
  • 최윤진
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
논문 개요 논문명: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models 링크 : 출간일 : 2020.5 출간 학회 : - 저자 : Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He 소속 : Microsoft 인용 수 : 1143 코드: Parallelism 딥러닝에서 병렬 처리(Paralellism)란 한정된 하드웨어에 큰 모델을 끼워 넣거나 학습 속도를 빠르게 하는 작업 데이터 병렬 처리 데이터 병렬 처리(Data Parallelism)는 멀티 GPU로 학습을 할 때, 각 GPU가 모델의 전체 복제본을 갖고 있으며, 각 GPU가 데이터의 각기 다른 부분을 할당 받아 계산하고 결과를 합치는 과정 데이터셋을 동시적인 processing stream으로 분해하여 모두 같은 작업을 진행 각 GPU에서 계산한 결과를 모아 평균을 내고 다시 재분배하는 Synchronization 필요 모델 병렬 처리, 파이프라인 병렬 처리 등 다양한 멀티 GPU 학습 중 가장 널리 사용되는 방법 장점 확장성: 데이터셋의 사이즈나 계산의 복잡도가 커져도 GPU 추가를 통하여 쉽게 확장 가능 큰 데이터셋 사용 가능: 데이터를 나눠서 계산하기 때문에 큰 데이터를 다룰 수 있음 처리량 증가: 동시에 처리하기 때문에 계산에 필요한 시간이 줄어듦
  • E
    Eunyoung Lee
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models
아티클 개요 논문명: NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models 링크 : 출간일 : 2024.05 출간 학회 : - 저자 : Chankyu Lee, Rajarshi Roy, Mengyao Xu, Jonathan Raiman, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping 소속 : NVIDIA 인용 수 : 31 모델: Abstract NV-Embed 모델은 다양한 아키텍처 디자인과 학습 절차를 통해 LLM의 성능을 다목적 임베딩 모델로서 크게 향상시켰으며, LLM의 단순성과 재현성은 유지 모델 아키텍처: latent attention layer pooled embeddings mean/EOS 풀링에 비해 검색 및 다운스트림 작업의 정확도를 향상 represenation learning을 향상시키기 위해, contrastive learning 동안 LLM의 causal attention mask를 제거 모델 학습: two-stage contrastive instruction-tuning MTEB 랭킹에서 1위 공개된 데이터만 사용 Introduction
  • E
    Eunyoung Lee
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
논문명 : Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models 링크 : 출간일 : 2023.12 출간 학회 : Springer 저자 : Haoran Wei1∗ , Lingyu Kong2∗, Jinyue Chen2, Liang Zhao1, Zheng Ge1†, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1 소속 : MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology 인용 수 : 48 코드 : Wei, Haoran, et al. "Vary: Scaling up the vision vocabulary for large vision-language model." European Conference on Computer Vision. Springer, Cham, 2025. Abstract 대부분의 LVLM 은 Vision Vocabulary(Vision Encoder) 로 CLIP 을 사용. 하지만 Document OCR, Chat Understanding 과 같은 dense vision perception 이 필요한 태스크의 경우에 CLIP 은 충분하지 않음. 특히 non english document, high resolution image, chart understanding 를 다루는 경우 out of vocabulary problem 을 보임 제안 아키텍쳐 : Vary an efficient and effective method to scale up the Vision vocabulary of LVLMs. Vision Vocabulary 를 효율적이고 효과적으로 스케일업 Vary 학습은 generation, integration 두 과정으로 진행됨 generation a new vision vocabulary vocabulary network + tiny decoder only transformer 를 이용해서 auto-regression train
  • 최윤진
CG-VLM : Constrastive Vision-Language Alignment maskes Efficient Instruction Learner
논문명 : Constrastive Vision-Language Alignment maskes Efficient Instruction Learner 링크 : 출간일 : 2023.11.29 저자 : Lizhao Liu, Xinyu Sun, Tianhang Xiang, Zhuangwei Zhuang, Liuren Yin, Mingkui Tan, 소속 : South China University of Technology, PengCheng Laboratory, Duke University 인용 수 : 1 코드 : (coming soon..) Abstract 주제 : LLM 모델을 vision-language instruction-following 모델로 확장 = LLM이 이미지를 더 효과적으로 이해하고 처리할 수 있게끔 한다 Challenge 텍스트만 학습된 LLM에 어떻게 이미지 정보를 효과적으로 학습시키는가 핵심 Task ViT와 LLM 간의 표현을 최대한 일치시키기 Generative image caption loss를 활용하여 Visual adapter 학습 → 이미지 세부 사항을 학습하기 어려움 ViT와 LLM의 표현을 최대한 일치시켜 세부적인 연관성에 대해 학습한다 → Contrastive + Generative → 이미지 patch 수준의 특징과 텍스트 토큰 수준의 임베딩 정렬 Image-caption dataset에서 패치-토큰 관계가 제공되지 않음 → 이미지 패치 특징과 텍스트 토큰 임베딩 간의 평균 유사도 최대화 Introduction 기존 연구 pre-trained ViT와 LLM을 결합하여 복잡한 비전 지시 작업을 수행 (CLIP의 pre-trained ViT를 주로 이용) Image-Text 정렬 단계가 필수적, vision adapter를 학습하여 정렬
  • 최윤진
LightRAG: Simple and fast retrieval augmented generation
링크 : 출간일 : 2024.10 저자 : Zirui Guo, Lianghao Xia, Yanhua Yu, Tu Ao, Chao Huang 코드 : Abstract 기존 문제점 복잡한 관계나 문맥을 제대로 이해하지 못함 단편적인 답변을 제공- > 질문이 여러 주제에 걸쳐있을 때 문제 발생 ex) 전기차의 증가가 도시의 공기질과 대중교통 인프라에 어떤 영향을 미치는가? 논문 제안 텍스트 색인 및 검색 과정에 그래프 구조 도입 저수준(세부 사항), 고수준(넓은 주제)를 모두 다룰 수 있는 이중 레벨 검색 시스템 증분 업데이트 알고리즘으로 새로운 데이터만 부분적으로 업데이트 증분 업데이트(incremental update algorithm)란, 새로운 데이터만 부분적으로 업데이트 하는것을 말함 기존 RAG 시스템들과 비교하여 더 높은 검색 정확도, 더 빠른 검색 속도 제공 1. Introduction 일반적인 측면 그래프 기반 RAG 시스템을 개발하는 것이 기존 방법의 한계를 극복하는 중요한 방법임. 그래프 구조를 통합함으로써, 복잡한 관계를 더 잘 이해하고 맥락적으로 풍부한 응답 생성 방법론적 측면
  • E
    Eunyoung Lee
Introducing Contextual Retrieval
아티클 개요 아티클 명: Introducing Contextual Retrieval 링크 : 출간일 : 2024.9 저자 : Anthropic 소속 : Anthropic 코드 : Introduction Problem of traditional RAG 정보를 인코딩할 때 컨텍스트를 삭제하여, 지식 베이스로부터 관련 있는 정보를 검색하는 데 실패함 Contextual Retrieval Two sub-techniques Contextual Embedding Contextual BM25 retrieval 실패 확률을 49% 줄임 reranking과 함께 사용되었을 때는 67% ❓A note on simply using a longer prompt 지식 베이스가 200,000 토큰 이하일 경우 가능 프롬프트 캐싱을 사용할 수도 있겠지만, 지식 베이스가 커지면 한계가 있음
  • E
    Eunyoung Lee
논문명 : UNIFIED LANGUAGE-VISION PRETRAINING IN LLM WITH DYNAMIC DISCRETE VISUAL TOKENIZATION 링크 : 출간일 : 2023.09 출간 학회 : ICLR 2024 저자 : Yang Jin1∗ , Kun Xu2, Kun Xu2, Liwei Chen2, Chao Liao2, Jianchao Tan2, Quzhe Huang1, Bin Chen2, Chenyi Lei2, An Liu2, Chengru Song2, Xiaoqiang Lei2, Di Zhang2, Wenwu Ou2, Kun Gai2, Yadong Mu1 소속 : Peking University, Kuaishou Technology 인용 수 : 30 코드 : Abstract 기존 VLM 방법 → visual input 을 prompt 로 처리 하고 text generation 을 최적화 하는것에 집중. vision 과 text 에 대한 모달리티를 다르게 처리하기 때문에 VLM 의 potential 이 많이 발현이 안됨. ❓VLM 이 image 와 text 를 동등하게 처리해줘야 한다. In this paper vision 과 language 를 통합된 형식으로 represent 해서 기존 문제를 해결함. visual tokenizer 를 이용해서 non linguistic 한 이미지를 llm 이 이해할수 있는 sequence token 으로 처리 propose LaVIT model Understanding, Generation 으로 각각 인퍼런스 가능함. Introduction (a), (b) 기존 VLM 방법들.
  • 최윤진
The Power of Noise: Redefining Retrieval for RAG Systems
Abstract 질문과 관련이 있지만 답을 포함하지 않은 문서는 LLM의 정확도를 하락시킬 수 있음 무작위 문서(무관한 문서)를 RAG 시스템에 추가했을 때 오히려 LLM의 정확도가 상승하였음 검색된 문서의 개수가 증가할수록 성능 저하 골드 문서가 프롬프트 내애서 질문과 가까운 위치에 있을 때 정확도가 높아짐 Condition Dataset Natural Questions(NQ) dataset 구글 검색 데이터에서 실제 사용자 쿼리를 기반으로 수집된 데이터 NQ-Open dataset NQ 데이터셋과 달리 정답이 특정 Wikipedia에 직접 연결 X where did they film hot tub time machine [ "Fernie Alpine Resort" ] who has the right of way in international waters [ "Neither vessel" ] who does annie work for attack on titan [ "Marley" ] Wikipedia dataset 100단어 구절로 나뉘어 사용 Types of Documents
  • E
    Eunyoung Lee
DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks
ABSTRACT 주제 Detail-oriented, fine-grained task를 위한 Model 문제점 CLIP의 한계 Detail-oriented (segmentation) task에서 contrastive learning 기반 vision-language model의 한계 Global alignment에서는 뛰어나지만 fine-grained detail을 포착하는데 어려움이 있음 목적 고수준의 의미 이해 세부적인 특징 추출 Introduction CLIP 장단점 장점 Shared embedding space를 생성하는 혁신적인 접근법 Classification task에서 효과적임을 입증 단점 Contrastive loss에 의존하는 것은 image segmentation같은 정밀한 작업에 모델을 적응시키는데 있어 한계점 이유 Segmentaion과 같은 정밀한 작업을 위해서; 장면 전체에 대한 포괄적인 이해 + 픽셀 수준의 정확한 경계 구분
  • 최윤진
Precise Zero-Shot Dense Retrieval without Relevance Labels
논문 개요 논문명: Precise Zero-Shot Dense Retrieval without Relevance Labels 링크 : 출간일 : 2022.12 출간 학회 : - 저자 : Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan 소속 : Carnegie Mellon University, University of Waterloo 인용 수 : 130 코드 : (비공식 코드) Abstract dense retrieval이 다양한 작업과 언어에서 효과적이고 효율적인 것으로 나타났지만, relevance label이 없는 상황에서 효과적인 fully zero-shot dense retrieval system을 만드는 것은 어려움 Hypothetical Document Embeddings (HyDE) 쿼리가 주어졌을 때, instruction-following language model(e.g. InstructGPT)가 hypothetical 문서를 생성하도록 함 문서는 relevance pattern을 포착하지만 비현실적이고 틀린 디테일을 가질 수 있음 supervised contrastively learned encoder(e.g. Contriever)가 문서를 임베딩, 벡터 유사도를 기반으로 하여 유사한 실제 문서를 retrieve 생성된 문서를 실제 코퍼스와 연결시키며, 인코더(contriever)의 dense bottleneck 현상이 부정확한 세부 사항을 필터링함 실험 결과, HyDE는 최신 unsupervised dense retriever인 Contriever의 성능 크게 능가, 다양한 작업(예: 웹 검색, QA, 사실 확인)과 언어(예: 스와힐리어, 한국어, 일본어)에서 fine-tuned된 retriever와 비교할 만한 강력한 성능을 보여줌 Introduction 기존 방법 Dense retrieval: 시멘틱 임베딩 유사도로 문서 검색 supervised dense retrieval model 성능 개선 방법 제시: negative mining, distillation, task-specific pre-training
  • E
    Eunyoung Lee
LiLT:A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding
LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding 논문명 : LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding 링크 : 출간일 : 2022.02 출간 학회 : ACL 저자 : Wang, Jiapeng, Lianwen Jin, and Kai Ding 소속 : South China University of Technology, Guangzhou, China IntSig Information Co., Ltd, Shanghai, China INTSIG-SCUT Joint Laboratory of Document Recognition and Understanding, China Peng Cheng Laboratory, Shenzhen, China 인용 수 : 117 코드 : Abstract 문제 의식 : English 에 특화된 Structured Document Understanding (SDU) 모델들만 있음 → Multi lingual SDU 모델에 Contribution DLA 태스크를 명확히 말하지 않음. Semantic Entity Recognition (SER), Relation Extraction(RE) 에 한정해서 언급 Paragraph 단위의 SER 이 DLA Task 와 같은 것으로 보임
  • L
Improving Text Embeddings with Large Language Models
논문 개요 논문명: Improving Text Embeddings with Large Language Models 링크 : 출간일 : 2023.12 출간 학회 : ACL 저자 : Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei 소속 : Microsoft Corporation 인용 수 : 51 코드 : Abstract 합성 데이터와 1K 학습 스텝보다 적은 스텝을 사용하여 높은 퀄리티의 텍스트 임베딩 얻는 방법 소개 기존 방법은 많은 양의 weakly-supervised text pair로 프리트레인을 하고 라벨링 된 데이터로 파인튜닝을 해야했음 proprietary(독자적) LLM을 활용하여 93개 언어에 걸쳐 임베딩 태스크를 위한 합성 데이터 생성 오픈 소스 디코더-only LLM을 합성 데이터로 standard contrastive loss로 파인튜닝 라벨링 데이터를 하나도 사용하지 않고 좋은 성능을 보임 합성 데이터와 라벨링 데이터를 섞어 파인튜닝을 더 진행하여 BEIR와 MTEB에서 sota 달성 Introduction 이전 연구들(Glove 등)에서 사전 학습된 단어 임베딩의 가중 평균이 semantic similarity를 측정하는 강력한 기준임을 보여줬지만, 이 방법들은 자연어의 풍부한 맥락 정보를 포착하지 못함(토큰 간의 관계 파악) 프리트레인 언어 모델 등장 이후 NLI 데이터셋에 BERT를 파인튜닝한 예시들: Sentence-BERT, SimCSE BGE, E5: multi-stage 학습 패러다임으로, 수십억 개의 weakly-supervised 텍스트 쌍에 대해 사전 학습 후 고품질 라벨 데이터셋에 대해 파인튜닝
  • L
SELF-RAG: Learning to Retrieve, Generate and Critique Through Self-Reflection
안녕하세요! KPMG 라이트하우스 AI Engineer들은 매주 쏟아지는 LLM 및 모델관련 논문 스터디를 수행하고 실무에 적용해오고 있습니다. 그 중 일부를 발췌하여 여러분들께 공유드립니다. SELF-RAG: Learning to Retrieve, Generate and Critique Through Self-Reflection Abstract LLM은 자체 매개변수 지식에 의존하기 때문에 부정확한 답변을 생성하지만 RAG로 이런 문제를 줄일 수 있음 문서가 관련성이 있는지 확인하지 않은 무분별한 검색과 고정된 수의 검색 문서 통합은 성능을 저하시킴 Self-Reflective Retrieval-Augmented Generation 소개 LM을 on-demand로 상황에 맞게 검색할 수있게 학습시키고, ‘reflection token’을 사용하여 검색한 문서와 생성물을 성찰 reflection token 생성으로 추론 단계에서 LM을 제어하고 다양한 작업 요구사항에 맞춰 LM의 동작을 조정 가능 1. Introduction SELF-RAG: 온디맨드 검색과 self reflection을 통해 LLM의 생성 품질과 정확성 향상 임의의 LM을 end-to-end 방식으로 주어진 작업 입력에 대해 자체 생성 과정을 성찰하도록 학습, 태스크 아웃풋과 중간에 특별한 토큰(reflection token) 출력 Reflection 토큰은 retrieval과 critique 토큰으로 나뉘며 검색 필요성과 생성 성능을 표시
  • L
Unlocking the Potential of LLMOps: A Practical Guide for Industry Application
In the ever-evolving landscape of artificial intelligence, Large Language Model Operations (LLM Ops) are emerging as a game-changer for businesses striving to harness the power of AI. Implementing LLM Ops effectively can propel your company to new heights, but it requires strategic planning and execution. Here are the key secrets to successfully applying LLM Ops in the industry. Understand Your Use Case: Before diving into LLM Ops, clearly define your business objectives and identify the specific problems you aim to solve. Whether it's customer service automation, content generation, or data analysis, a targeted approach ensures that the LLM's capabilities align with your needs. Data is King: Quality data is the backbone of any successful LLM application. Invest in curating, cleaning, and annotating your datasets. Ensure diversity and representativeness to avoid biases and enhance the model's performance across different scenarios. Infrastructure and Scalability: Deploying LLMs demands robust infrastructure. Leverage cloud platforms like AWS, Google Cloud, or Azure, which offer scalable resources tailored for high-computational tasks. This not only facilitates smooth operations but also accommodates future growth and increased workloads. Fine-Tuning and Customization: Generic models often fall short in specialized applications. Fine-tuning your LLM on domain-specific data can significantly improve accuracy and relevance. This step requires expertise but pays dividends in creating models that understand and predict user needs more precisely. Human-in-the-Loop: Integrate human oversight to ensure quality and reliability. Humans can provide critical feedback, correct errors, and introduce nuances that automated systems might miss. This collaborative approach enhances model trustworthiness and effectiveness. Continuous Monitoring and Iteration: LLM Ops is not a set-and-forget operation. Continuous monitoring for performance, biases, and anomalies is essential. Implement feedback loops and regularly update the model with new data to keep it relevant and accurate. Ethical Considerations: Ethics in AI cannot be overstated. Ensure transparency, fairness, and accountability in your LLM applications. Establish guidelines and frameworks to mitigate risks related to privacy, security, and societal impacts. By following these steps, businesses can unlock the full potential of LLM Ops, driving innovation and efficiency in their operations. Embrace the future of AI with confidence and transform your industry through smart, ethical, and effective LLM practices. Use Cases in the Finance Industry Automated Customer Support: LLMs can enhance customer service by providing instant, accurate responses to common inquiries. This reduces the burden on human agents and improves customer satisfaction. Fraud Detection: By analyzing transaction patterns and identifying anomalies, LLMs can help detect fraudulent activities in real-time, providing a layer of security and trust for financial institutions and their customers. Financial Forecasting: LLMs can process vast amounts of historical and real-time data to generate accurate financial forecasts. This aids in strategic planning, risk management, and decision-making.
  • L
LLM 컨텍스트 길이 늘이기
컨텍스트 길이 늘이기 컨텍스트 길이는 언어 모델이 한 번에 처리할 수 있는 토큰의 개수입니다. LLM이 처리할 수 있는 토큰 개수는 한정적이기 때문에 요약 태스크와 같이 긴 텍스트를 다루는 태스크를 위해서는 컨텍스트 길이가 긴 모델을 사용해야 합니다. 예를 들어 LLaMA3의 경우, 컨텍스트 길이가 8192기 때문에 최대 8192개의 토큰까지 밖에 다루지 못하고 더 긴 텍스트가 들어갈 경우 아웃풋 출력을 제대로 하지 못합니다. 또한 트랜스포머 기반 LLM은 메모리 footprint와 계산 시간이 지수적으로 증가하기 때문에 기존 트랜스포머 아키텍처로는 긴 시퀀스를 처리하는 데 비용이 많이 소요됩니다. 컨텍스트 길이가 긴 한국어 LLM을 사용하고자 LLM의 컨텍스트 길이를 효율적으로 늘이기 위해 조사 및 시도해본 다양한 방법들에 대해 알아보겠습니다. 컨텍스트 길이 확장 정리 표 파인튜닝 필요 여부 확장 가능 범위 사용해봤는지 여부 LongLoRA O 8배 파인튜닝 자원 부족 Position Interpolation O 8배
  • E
    Eunyoung Lee