Sign In
💽

通过生成合成数据克服数据短缺问题

合成数据生成是在实际数据不足时,人工智能自动生成虚拟数据的技术。基于真实存在的数据,AI会“合成”出新数据,并通过这些数据进行更多学习。
举个例子,如果要开发一个需要理解A国法律文件的聊天机器人,但 A 国的实际法律文档不够充分,就可以通过合成数据生成,从其他国家法律文件中衍生出新的法律文档。虽然这些文档并非真实存在,但可以用来让聊天机器人进行理解法律文档所需的学习。
这样的合成数据可以在训练AI模型时节省时间和成本,并帮助模型应对各种场景。此外,还能灵活调整数据以适应特定领域或语言。
RAG(检索增强生成)是一种能够检索信息并以此为基础生成回答的模型。为RAG生成合成数据,可以用于构建RAG可检索的数据库。通过合成数据,RAG模型能够学习如何回答各种问题,并为实际用户的问题提供更加准确和有用的信息。
不过,保证合成数据的质量是一项重要任务。如果数据不能真实反映实际情况,模型可能会学习到错误信息。因此,生成合成数据时要保障数据的多样性与质量,并进行定期评估,确保模型能够提供与现实相符的答案。在这个过程中,要确认数据是否涵盖了与真实业务相关的多种场景,并依据模型性能持续改进。

实际应用案例?

Dai 等人(2022)的研究:这项研究提出了一种方法,仅用8个手动标记的样本和大量未标记的数据(如所有解析过的法律文档),就可以获得接近顶级的性能​​。
在机器学习模型中应用合成数据:用合成数据训练的机器学习模型在特定情境下甚至可能优于用真实数据训练的模型。这有助于科学家们发现适合用合成数据进行训练的情形,可以规避真实数据集普遍存在的偏见、隐私、安全和版权等问题​​。
MOSTLY AI 公司的合成数据开发:MOSTLY AI 在AI模型开发与软件测试用合成数据生成领域处于领先地位。这反映了AI与合成数据领域的快速发展。 (链接) 不过这也只是对外宣称,实际上能否运作还是个疑问。虽然给人宣传资料的感觉,但他们的确这样宣称。
在金融或医疗等特定行业,获取真实数据可能有法律或伦理障碍。因此,基于已有授权数据生成所需学习数据的需求尤为强烈。
总的来说,合成数据生成在数据不足时为快速开发和测试AI模型提供了极大帮助,尤其是在像RAG这类模型中,依赖检索信息生成更优答复时更为不可或缺。GPT、Bing、Google的Bard、Notion Q&A等产品都是典型案例,它们都能基于用户上传或撰写的文档、文件生成更优的回答。
👁️‍🗨️
👩‍💻
ⓒ 2023。Haebom,保留所有权利。
经版权所有者许可,可以将其用于商业目的,但需注明来源。
👍