本論文は、生成型AIと大規模言語モデル(LLM)を用いた合成データ生成、特に製品レビューなどの構造化された表形式データ生成の急速な発展とともに発生する個人情報の漏洩問題と総合的な評価フレームワークの欠如を扱います。研究者は、合成データの忠実度、有用性、個人情報保護をさまざまな評価指標を通じて定量的に測定するオープンソース評価フレームワークであるSynEvalを提案します。 ChatGPT、Claude、Llama 3つの最先端LLMを使用して生成された合成製品レビューデータにSynEvalを適用して検証し、さまざまな評価指標間の矛盾を明らかにします。 SynEvalは、合成表形式データの適合性を判断し、ユーザーのプライバシーを強調するための重要なツールとして提示されています。