공부 내용
The organization of information
yeji Kim
Organization of recorded information
The nature of information
유용성 - data<information<knowledge<understanding<wisdom
Organization of information in different contexts
Descriptive cataloging
creating a description
choosing access point
ensuring authority control
Subjective cataloging
conceptual analysis - aboutness.
translation - aboutness → controlled subject language
choosing controlled vocabulary terms
choosing classification notations
Retrieval tools
The basic retrieval tools, their formats, and their functions
list of resources
individual items within collections of information resources
provide access
yeji Kim
Large Language Models for Information Retrieval: A Survey
Introduction retrieval upstream - query reformulation downstream - reranking and reading reranking only on a limited set of relevant documents personalization, diversification Background Info retrieval relevance estimation - lexical similarity between the query and document vectors. Components Query rewriter Retriever Reranker - fine-grained reordering Reader - comprehend real-time user intent and generate dynamic responses Search agent LLMs Query rewriter Rewriting scenario
yeji Kim
Web 3.0
web 1, 2, 3 1.0 - 읽기 2.0 - 읽기+쓰기 3.0 - 읽기+쓰기+개인화(소유) 탈중앙화. 플랫폼 없어짐. 시맨틱 웹 컴퓨터가 사람 대신 정보를 읽고, 이해하고, 가공하여 새로운 정보 생성. 마크업 - XML, RDF 등 온톨로지
yeji Kim
ELK stack (Elastic search, log stash, kibana)
Elastic search - 데이터 저장, 검색 엔진 inverted index (key - word, value - doc) 특징 scale out - 샤드를 통해 수평적으로 규모를 늘릴 . 수있음 고가용성 - replica를 통해 데이터의 안정성을 보장 schema free - json 문서를 통해 데이터 검색을 수행. → 스키마 개념이 없음. rest ful - 데이터 crud 작업은 http restful api를 통해 수행하며 각각 다음과 같이 대응. ES의 검색 쿼리 컨텍스트 연관성을 계산해 최대한 비슷한 데이터를 찾아줌. BM25 필터 컨텍스트 Log stash - 데이터 수집 로그 - 반정형 데이터 로그 수집 후 로그 형태를 분석하고 정제하는 작업이 필요함. 특징 플러그인 기반 모든 형태의 데이터 처리 성능 - 자체 내장 메모리와 파일 기반 큐 사용 안정성 - 데드 레터 큐