Share
Sign In
Lighthouse LLM
LiLT:A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding
L
Lighthouse
👍
1
LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding
논문명 : LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding
출간일 : 2022.02
출간 학회 : ACL
저자 : Wang, Jiapeng, Lianwen Jin, and Kai Ding
소속 :
South China University of Technology, Guangzhou, China
IntSig Information Co., Ltd, Shanghai, China
INTSIG-SCUT Joint Laboratory of Document Recognition and Understanding, China
Peng Cheng Laboratory, Shenzhen, China
인용 수 : 117
Abstract
문제 의식 : English 에 특화된 Structured Document Understanding (SDU) 모델들만 있음
→ Multi lingual SDU 모델에 Contribution
DLA 태스크를 명확히 말하지 않음.
Semantic Entity Recognition (SER), Relation Extraction(RE) 에 한정해서 언급
Paragraph 단위의 SER 이 DLA Task 와 같은 것으로 보임
LILT
LILT는 OCR 결과 를 받아서 Language Independent 하게 SDU(SER, RE) 하는 모델
pretrain 할 때 single language 로 학습함.
fine tuning 할 때, 다른 언어 사용
architecture
a novel bi-directional attention complementation mechanism (BiACM)
mono lingual or multi lingual pretrain texture 모델 사용 (ex RoBERTA, InfoXLM)
pretrain task
MVLM 태스크
key point location (KPL)
cross- modal alignment identification (CAI) tasks
HuggingFace LiLT 구현
from transformers import LiltModel
@add_start_docstrings( "The bare LiLT Model transformer outputting raw hidden-states without any specific head on top.", LILT_START_DOCSTRING, ) class LiltModel(LiltPreTrainedModel): def __init__(self, config, add_pooling_layer=True): super().__init__(config) self.config = config self.embeddings = LiltTextEmbeddings(config) self.layout_embeddings = LiltLayoutEmbeddings(config) self.encoder = LiltEncoder(config) self.pooler = LiltPooler(config) if add_pooling_layer else None # Initialize weights and apply final processing self.post_init()
데이터셋 추가 설명
FUNSD
목적: 노이즈가 있는 스캔 문서에서 양식을 이해하기 위한 영어 데이터셋
구성:
199개의 실제 스캔된 양식
31,485개의 단어 위에 9,707개의 의미 엔티티가 어노테이션
149개 훈련용, 50개 테스트용으로 분할
태스크: 의미 엔티티 인식(SER) - 각 단어에 네 가지 미리 정의된 카테고리 중 하나의 레이블을 할당
카테고리: 질문, 답변, 헤더, 기타
특징: 공식 OCR 주석을 직접 사용
CORD(영수증 키 정보 추출용 영어 데이터셋)
구성: 훈련용 800개, 검증용 100개, 테스트용 100개 영수증
각 영수증에는 사진과 OCR 주석 목록 포함
4개 카테고리 아래 30개 필드 정의
태스크: 각 단어에 올바른 필드 레이블 지정
공식 OCR 주석 사용
EPHOIE (중국어 시험지 )
다양한 텍스트 유형과 레이아웃 분포를 가진 실제 시험지로 구성
구성: 훈련용 1,183개, 테스트용 311개 이미지 (총 1,494개)
10개의 엔티티 카테고리 정의
평가 지표: 엔티티 수준 F1 점수 (RoBERTa, LayoutXLM, LiLT 모델용)
공식 OCR 주석 사용
RVL-CDIP
영어 문서 분류 데이터셋
400,000개의 흑백 영어 문서 이미지로 구성
Text and layout information are extracted by TextIn API
XFUND
개요: XFUND는 다국어 양식 이해를 위한 데이터셋입니다.
구성:
총 1,393개의 완전히 주석 처리된 양식
7개 언어 포함: 중국어(ZH), 일본어(JA), 스페인어(ES), 프랑스어(FR), 이탈리아어(IT), 독일어(DE), 포르투갈어(PT)
각 언어별로 199개의 양식 (훈련용 149개, 테스트용 50개)
주요 태스크:
의미 엔티티 인식(SER)
관계 추출(RE): 주어진 두 의미 엔티티 간의 관계 예측 (주로 키-값 관계 추출에 초점)
평가:
공식 OCR 결과 사용
Kp
Subscribe to 'kpmg-lighthouse'
Welcome to 'kpmg-lighthouse'!
By subscribing to my site, you'll be the first to receive notifications and emails about the latest updates, including new posts.
Join SlashPage and subscribe to 'kpmg-lighthouse'!
Subscribe
👍
1
Eunyoung Lee
Precise Zero-Shot Dense Retrieval without Relevance Labels
논문 개요 논문명: Precise Zero-Shot Dense Retrieval without Relevance Labels 링크 : https://arxiv.org/pdf/2212.10496 출간일 : 2022.12 출간 학회 : - 저자 : Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan 소속 : Carnegie Mellon University, University of Waterloo 인용 수 : 130 코드 : https://python.langchain.com/v0.1/docs/use_cases/query_analysis/techniques/hyde/ (비공식 코드) Abstract dense retrieval이 다양한 작업과 언어에서 효과적이고 효율적인 것으로 나타났지만, relevance label이 없는 상황에서 효과적인 fully zero-shot dense retrieval system을 만드는 것은 어려움 Hypothetical Document Embeddings (HyDE) 쿼리가 주어졌을 때, instruction-following language model(e.g. InstructGPT)가 hypothetical 문서를 생성하도록 함 문서는 relevance pattern을 포착하지만 비현실적이고 틀린 디테일을 가질 수 있음 supervised contrastively learned encoder(e.g. Contriever)가 문서를 임베딩, 벡터 유사도를 기반으로 하여 유사한 실제 문서를 retrieve 생성된 문서를 실제 코퍼스와 연결시키며, 인코더(contriever)의 dense bottleneck 현상이 부정확한 세부 사항을 필터링함 실험 결과, HyDE는 최신 unsupervised dense retriever인 Contriever의 성능 크게 능가, 다양한 작업(예: 웹 검색, QA, 사실 확인)과 언어(예: 스와힐리어, 한국어, 일본어)에서 fine-tuned된 retriever와 비교할 만한 강력한 성능을 보여줌 Introduction 기존 방법 Dense retrieval: 시멘틱 임베딩 유사도로 문서 검색 supervised dense retrieval model 성능 개선 방법 제시: negative mining, distillation, task-specific pre-training
Lighthouse
Improving Text Embeddings with Large Language Models
논문 개요 논문명: Improving Text Embeddings with Large Language Models 링크 : https://arxiv.org/pdf/2401.00368 출간일 : 2023.12 출간 학회 : ACL 저자 : Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei 소속 : Microsoft Corporation 인용 수 : 51 코드 : https://github.com/microsoft/unilm/tree/master/e5 Abstract 합성 데이터와 1K 학습 스텝보다 적은 스텝을 사용하여 높은 퀄리티의 텍스트 임베딩 얻는 방법 소개 기존 방법은 많은 양의 weakly-supervised text pair로 프리트레인을 하고 라벨링 된 데이터로 파인튜닝을 해야했음 proprietary(독자적) LLM을 활용하여 93개 언어에 걸쳐 임베딩 태스크를 위한 합성 데이터 생성 오픈 소스 디코더-only LLM을 합성 데이터로 standard contrastive loss로 파인튜닝 라벨링 데이터를 하나도 사용하지 않고 좋은 성능을 보임 합성 데이터와 라벨링 데이터를 섞어 파인튜닝을 더 진행하여 BEIR와 MTEB에서 sota 달성 Introduction 이전 연구들(Glove 등)에서 사전 학습된 단어 임베딩의 가중 평균이 semantic similarity를 측정하는 강력한 기준임을 보여줬지만, 이 방법들은 자연어의 풍부한 맥락 정보를 포착하지 못함(토큰 간의 관계 파악) 프리트레인 언어 모델 등장 이후 NLI 데이터셋에 BERT를 파인튜닝한 예시들: Sentence-BERT, SimCSE BGE, E5: multi-stage 학습 패러다임으로, 수십억 개의 weakly-supervised 텍스트 쌍에 대해 사전 학습 후 고품질 라벨 데이터셋에 대해 파인튜닝
Lighthouse
SELF-RAG: Learning to Retrieve, Generate and Critique Through Self-Reflection
안녕하세요! KPMG 라이트하우스 AI Engineer들은 매주 쏟아지는 LLM 및 모델관련 논문 스터디를 수행하고 실무에 적용해오고 있습니다. 그 중 일부를 발췌하여 여러분들께 공유드립니다. SELF-RAG: Learning to Retrieve, Generate and Critique Through Self-Reflection Abstract LLM은 자체 매개변수 지식에 의존하기 때문에 부정확한 답변을 생성하지만 RAG로 이런 문제를 줄일 수 있음 문서가 관련성이 있는지 확인하지 않은 무분별한 검색과 고정된 수의 검색 문서 통합은 성능을 저하시킴 Self-Reflective Retrieval-Augmented Generation 소개 LM을 on-demand로 상황에 맞게 검색할 수있게 학습시키고, ‘reflection token’을 사용하여 검색한 문서와 생성물을 성찰 reflection token 생성으로 추론 단계에서 LM을 제어하고 다양한 작업 요구사항에 맞춰 LM의 동작을 조정 가능 1. Introduction SELF-RAG: 온디맨드 검색과 self reflection을 통해 LLM의 생성 품질과 정확성 향상 임의의 LM을 end-to-end 방식으로 주어진 작업 입력에 대해 자체 생성 과정을 성찰하도록 학습, 태스크 아웃풋과 중간에 특별한 토큰(reflection token) 출력 Reflection 토큰은 retrieval과 critique 토큰으로 나뉘며 검색 필요성과 생성 성능을 표시