Share
Sign In
📚

정보 추출

언어 모델은 단순히 텍스트를 생성하는 것뿐만 아니라, 분류, 정보 추출, 요약과 같은 다양한 자연어 처리(NLP) 작업을 수행할 수 있는 능력을 갖추고 있습니다. 이러한 모델들은 대량의 텍스트 데이터에서 패턴을 학습하고, 이를 바탕으로 새로운 텍스트를 생성하거나 기존 텍스트의 의미를 분석합니다.
예를 들어, 특정 텍스트에서 중요한 정보를 추출하는 작업을 생각해 볼 수 있습니다. 언어 모델을 사용하여 텍스트에서 특정 날짜, 장소, 인물 이름과 같은 중요한 요소들을 식별하고 추출하는 것이 가능합니다. 또한, 텍스트의 주제나 감정을 분석하는 것도 가능합니다. 이는 비지니스 인사이트 도출, 뉴스 요약, 소셜 미디어 분석 등 다양한 분야에서 유용하게 활용될 수 있습니다.
더 나아가, 이러한 모델은 사용자의 질문에 대한 답변을 제공하거나, 복잡한 지시사항을 이해하고 실행하는 데에도 사용될 수 있습니다. 예를 들어, 최근 뉴스 기사나 연구 논문의 요약을 요청하거나, 특정 주제에 관한 정보를 찾는 것과 같은 작업들을 시킬 수 있습니다. 가령 다음과 같은 정보가 있다고 칩시다.
대한민국의 연예 기획사 '매니지먼트 숲'은 2011년 싸이더스HQ 및 판타지오를 거친 김장균 대표가 설립했다. 이후 2018년 12월 카카오M이 지분 99.36%를 140억원에 취득했다. 당시, 카카오는 카카오M을 통한 엔터사업 강화를 목적으로 BH, 제이와이드, 레디엔터테인먼트를 인수했는데 함께 인수된 배우 기획사였다. 참고로, 취득 당시 공시를 통해 나온 숲엔터테인먼트의 2017년 경영실적은 매출 184.86억, 당기순이익 3.08억원이었다.(자산총계 49.11억원, 부채총계 19.3억원) 소속 아티스트로는 공유, 공효진, 김민주, 김재욱, 김지수, 남주혁, 남지현, 서현진, 수지, 이천희, 장성훈, 전도연, 전혜진, 정유미, 정가람이 있고 이전에는 김민희, 김태금, 류승범, 수애, 유민규, 이재준, 정일우, 최우식, 전소니 등이 있었다.
매니지먼트 숲에 대한 정보가 복합적으로 섞여 있습니다. 창업자에 대한 정보, 소속 아티스트에 대한 정보, 지분에 관한 정보 등이죠. 여기서 원하는 정보를 아티스트에 대한 정보라고 가정하고 이렇게 요청해 볼 수 있습니다.
Prompt : 위에 제시된 정보 중, 해당 회사의 소속된 연예인 목록을 뽑아줘
🤖
주어진 데이터에서 소속 연예인 목록을 추출해보겠습니다:
공유, 공효진, 김민주, 김재욱, 김지수, 남주혁, 남지현, 서현진, 수지, 이천희, 장성훈, 전도연, 전혜진, 정유미, 정가람
이상이 '매니지먼트 숲' 소속 연예인 목록입니다.
이는 무척 단편적인 예시로 여기에 '표로 정리해줘', '번호 메기기를 통해 정리해줘' 등의 상세한 명령을 내리면 원하는 포멧으로도 데이터를 뽑을 수 있습니다. 실제로 자연어처리(NLP) 분야에서는 LLM의 등장 이후, 많은 부분을 NLP 보다 LLM이 더 능히 해낸다는 연구결과가 나오고 있습니다.
이를 잘 활용하면 우리가 자주 쓰는 PDF와 같은 문서를 보고 정보를 요약하게 시키는 것이나 정리가 안된 데이터를 주고 데이터를 정리 시키는 것 또한 이러한 특성을 사용하는 것 입니다. (정보를 추출하고 요약시키기)
특히 쇼핑몰의 리뷰데이터, 신문 기사 등 텍스트 덩어리로 다양한 정보가 있을 때 이를 추출하고 정리할 때 무척 유용하게 시킬 수 있습니다.
ⓒ 2023. Haebom, all rights reserved.
출처 표시를 하고, 저작권자 허락 하에 영리적 목적으로 쓰일 수 있습니다.
👍