💽

합성 데이터 생성으로 데이터 부족 문제 극복하기

합성 데이터 생성은 실제 데이터가 부족할 때, 인공 지능이 스스로 가상의 데이터를 만들어내는 기술입니다. 실제로 존재하는 데이터를 바탕으로, AI는 새로운 데이터를 '합성'하여 만들어내고, 이 데이터를 이용해 더 많은 것을 학습할 수 있습니다.
예를 들어, A국가의 법률 문서를 이해해야 하는 챗봇을 만들 때, 실제 A국가의 법률 문서가 충분하지 않다면, 합성 데이터 생성을 통해 기존의 국가들의 법률 문서에서 파생된 새로운 법률 문서를 만들어낼 수 있습니다. 이러한 문서는 실제로 존재하지 않지만, 챗봇이 법률 문서를 이해하는 데 필요한 학습을 진행하는 데 사용될 수 있습니다.
이와 같은 합성 데이터는 AI 모델을 훈련하는 데 있어서, 시간과 비용을 절약하고, 다양한 상황에 대비할 수 있게 도와줍니다. 또한, 특정 도메인이나 언어에 맞춰 데이터를 조정할 수 있는 유연성을 제공합니다.
RAG(Retrieval-Augmented Generation)는 정보를 검색하고 이를 바탕으로 답변을 생성하는 모델입니다. RAG를 위한 합성 데이터 생성은, RAG가 검색할 수 있는 데이터베이스를 구축하는 데 사용될 수 있습니다. 합성 데이터를 통해, RAG 모델은 다양한 질문에 대한 답변을 생성하는 방법을 학습하고, 실제 사용자의 질문에 대해 더 정확하고 유용한 정보를 제공할 수 있게 됩니다.
하지만, 합성 데이터의 질을 확보하는 것은 중요한 과제입니다. 데이터가 실제 상황을 잘 반영하지 못하면, 모델이 잘못된 정보를 학습할 수 있기 때문입니다. 따라서, 합성 데이터 생성시에는 데이터의 다양성과 품질을 보장하고, 주기적으로 평가하여 모델이 실제 상황에 적합한 답변을 할 수 있도록 해야 합니다. 이 과정에서, 데이터가 실제 업무와 관련된 다양한 시나리오를 포괄하고 있는지 확인하고, 모델의 성능을 기반으로 개선을 지속해나가는 것이 중요합니다.
실제 사용사례?
Dai et al. (2022)의 연구: 이 연구에서는 단 8개의 수동으로 라벨링된 예시와 대량의 라벨되지 않은 데이터(예: 모든 파싱된 법률 문서)를 사용하여 거의 최고 수준의 성능을 달성하는 방법을 제안했습니다​​.
기계 학습 모델에서의 합성 데이터 사용: 합성 데이터로 훈련된 기계 학습 모델은 특정 상황에서 실제 데이터로 훈련된 모델을 능가할 수 있습니다. 이는 과학자들이 합성 데이터를 훈련에 사용하는 것이 더 나을 수 있는 상황을 식별하는 데 도움이 될 수 있으며, 이는 실제 데이터셋에 영향을 미치는 편견, 프라이버시, 보안 및 저작권 문제를 제거할 수 있습니다​​.
MOSTLY AI 회사의 합성 데이터 개발: MOSTLY AI는 AI 모델 개발과 소프트웨어 테스트를 위한 합성 데이터 생성을 선도하고 있습니다. 이는 AI와 합성 데이터 분야에서의 빠른 발전을 나타냅니다​​. (링크) 이는 어디까지나 주장일 뿐이라 실제로는 작동을 하는지 의문 입니다. 홍보자료 느낌이 납니다만 하고 있다고 주장 하고 있습니다.
금융이나 의료 산업과 같은 특정 산업에서 실제 데이터를 얻는 데 법적이나 윤리적 장벽이 있을 수 있습니다​​. 이에 기존의 동의를 받은 데이터를 바탕으로 필요한 학습데이터를 생성해 내는 것에 대한 니즈가 강력한 분야입니다.
결론적으로, 합성 데이터 생성은 데이터가 부족한 상황에서 AI 모델을 빠르게 개발하고 테스트하는 데 큰 도움이 되며, 특히 RAG와 같은 모델에서는 검색된 정보를 바탕으로 더 나은 답변을 생성하는 데 필수적입니다. GPTs나 Bing 또는 Google의 Bard나 Notion Q&A와 같은 친구들이 대표적인 예 입니다. 이들은 사용자가 업로드한 혹은 작성한 문서, 파일을 기반으로 더 나은 답변을 생성하고 있습니다.
ⓒ 2023. Haebom, all rights reserved.
출처 표시를 하고, 저작권자 허락 하에 영리적 목적으로 쓰일 수 있습니다.