합성 데이터 생성으로 데이터 부족 문제 극복하기

합성 데이터 생성은 실제 데이터가 부족할 때, 인공 지능이 스스로 가상의 데이터를 만들어내는 기술입니다. 실제로 존재하는 데이터를 바탕으로, AI는 새로운 데이터를 '합성'하여 만들어내고, 이 데이터를 이용해 더 많은 것을 학습할 수 있습니다.

예를 들어, A국가의 법률 문서를 이해해야 하는 챗봇을 만들 때, 실제 A국가의 법률 문서가 충분하지 않다면, 합성 데이터 생성을 통해 기존의 국가들의 법률 문서에서 파생된 새로운 법률 문서를 만들어낼 수 있습니다. 이러한 문서는 실제로 존재하지 않지만, 챗봇이 법률 문서를 이해하는 데 필요한 학습을 진행하는 데 사용될 수 있습니다.

이와 같은 합성 데이터는 AI 모델을 훈련하는 데 있어서, 시간과 비용을 절약하고, 다양한 상황에 대비할 수 있게 도와줍니다. 또한, 특정 도메인이나 언어에 맞춰 데이터를 조정할 수 있는 유연성을 제공합니다.

RAG(Retrieval-Augmented Generation)는 정보를 검색하고 이를 바탕으로 답변을 생성하는 모델입니다. RAG를 위한 합성 데이터 생성은, RAG가 검색할 수 있는 데이터베이스를 구축하는 데 사용될 수 있습니다. 합성 데이터를 통해, RAG 모델은 다양한 질문에 대한 답변을 생성하는 방법을 학습하고, 실제 사용자의 질문에 대해 더 정확하고 유용한 정보를 제공할 수 있게 됩니다.

하지만, 합성 데이터의 질을 확보하는 것은 중요한 과제입니다. 데이터가 실제 상황을 잘 반영하지 못하면, 모델이 잘못된 정보를 학습할 수 있기 때문입니다. 따라서, 합성 데이터 생성시에는 데이터의 다양성과 품질을 보장하고, 주기적으로 평가하여 모델이 실제 상황에 적합한 답변을 할 수 있도록 해야 합니다. 이 과정에서, 데이터가 실제 업무와 관련된 다양한 시나리오를 포괄하고 있는지 확인하고, 모델의 성능을 기반으로 개선을 지속해나가는 것이 중요합니다.

실제 사용사례?

•

Dai et al. (2022)의 연구: 이 연구에서는 단 8개의 수동으로 라벨링된 예시와 대량의 라벨되지 않은 데이터(예: 모든 파싱된 법률 문서)를 사용하여 거의 최고 수준의 성능을 달성하는 방법을 제안했습니다.

Promptagator: Few-shot Dense Retrieval From 8 Examples

Much recent research on information retrieval has focused on how to transfer from one task (typically with abundant supervised data) to various other tasks where supervision is limited, with the...

arxiv.org

In machine learning, synthetic data can offer real performance improvements

Machine-learning models trained to classify human actions using synthetic data can outperform models trained using real data in certain situations. This could help scientists identify when it’s better to use synthetic data for training, which could eliminate bias, privacy, security, and copyright issues that often impact real datasets.

news.mit.edu

•

기계 학습 모델에서의 합성 데이터 사용: 합성 데이터로 훈련된 기계 학습 모델은 특정 상황에서 실제 데이터로 훈련된 모델을 능가할 수 있습니다. 이는 과학자들이 합성 데이터를 훈련에 사용하는 것이 더 나을 수 있는 상황을 식별하는 데 도움이 될 수 있으며, 이는 실제 데이터셋에 영향을 미치는 편견, 프라이버시, 보안 및 저작권 문제를 제거할 수 있습니다.

•

MOSTLY AI 회사의 합성 데이터 개발: MOSTLY AI는 AI 모델 개발과 소프트웨어 테스트를 위한 합성 데이터 생성을 선도하고 있습니다. 이는 AI와 합성 데이터 분야에서의 빠른 발전을 나타냅니다. (링크) 이는 어디까지나 주장일 뿐이라 실제로는 작동을 하는지 의문 입니다. 홍보자료 느낌이 납니다만 하고 있다고 주장 하고 있습니다.

•

금융이나 의료 산업과 같은 특정 산업에서 실제 데이터를 얻는 데 법적이나 윤리적 장벽이 있을 수 있습니다. 이에 기존의 동의를 받은 데이터를 바탕으로 필요한 학습데이터를 생성해 내는 것에 대한 니즈가 강력한 분야입니다.

결론적으로, 합성 데이터 생성은 데이터가 부족한 상황에서 AI 모델을 빠르게 개발하고 테스트하는 데 큰 도움이 되며, 특히 RAG와 같은 모델에서는 검색된 정보를 바탕으로 더 나은 답변을 생성하는 데 필수적입니다. GPTs나 Bing 또는 Google의 Bard나 Notion Q&A와 같은 친구들이 대표적인 예 입니다. 이들은 사용자가 업로드한 혹은 작성한 문서, 파일을 기반으로 더 나은 답변을 생성하고 있습니다.

RAG와 Embedding Model과 VectorDB의 컴비네이션

Low-code의 시대의 가속화

Made with Slashpage